Buscamos um profissional competente para atuar como Cientista de Dados. O candidato ideal terá experiência em desenvolvimento de soluções de software na área de Ciência de Dados e conhecimento em extração de dados por algoritmo automatizado.
">
Descrição do Cargo:
">
O Cientista de Dados trabalhará nas atividades especializadas associadas ao processo Desenvolvimento e Sustentação designadas para sua equipe, de acordo com a sua disciplina/áreas de atuação e com os procedimentos, práticas e padrões técnicos definidos.
">
* Pré-processamento de bases textuais em algoritmos de processamento de linguagem natural, aplicação de métodos de pré-tratamento no pipeline de NLP para adequação de corpora textuais (tokenização, normalização de caracteres e valores numéricos, eliminação de ruídos e stopwords);
* Anotação individualizada de dados para utilização em treinamento de algoritmos de machine learning;
* Geração, refinamento (otimização de hiper parâmetros e decisões arquiteturais) e avaliação de modelos de dados (regressão, redes feed-forward, redes convolucionais, redes recorrentes, árvores de decisão, modelos ensemble, etc.);
* Avaliação das métricas de erro, performance e complexidade entre os modelos experimentados, para decisão do modelo final (considerando a possibilidade de modelos ensemble);
* Otimização de hiperparâmetros e refinamento de decisões arquiteturais dos modelos;
* Desenvolvimento de código para aplicar o modelo de aprendizado de máquina e registrar os resultados em bases de dados;
* Desenvolvimento ou atualização de código utilizando algoritmo Doc2Vec e as bibliotecas Gensim e Keras para realização de testes e avaliação de resultados de acordo com as métricas de acurácia, precisão, sensibilidade, F1 e AUV;
* Realização de testes com diferentes arquiteturas de rede neural, como camada oculta simples ou multicamadas, camada oculta grande, pequena, esparsa ou densa;
* Realização de testes com diferentes ajustes de parâmetros como Dropout, EarlyStop, algoritmos e validação;
* Desenvolvimento de código com teste automático dos diferentes parâmetros;
* Desenvolvimento do código de visualizações dos Datasets em bibliotecas em para implementação em painéis;
* Implementação de dashboards em ferramentas de visualização de dados;
* Avaliação de algoritmos e modelos para extração de atributos globais e locais para busca por conteúdo em imagens e vídeos, ordenação dos resultados, considerando tanto estado da arte (e.g. Google DELG, OpenAI Clip) quanto algoritmos clássicos (e.g. SIFT, SURF);
* Modelagem para extração de atributos globais para busca (high recall) por conteúdo em imagens e vídeos;
* Modelagem para extração de atributos locais para ordenação (high precision) de resultados em busca;
* Avaliação de bibliotecas de busca por similaridade vetorial para suportar busca por conteúdo em imagens e vídeos (e.g. Hnswlib, Google ScanNN, Facebook FAISS, Yahoo NGT);
* Desenvolvimento de protótipo de pipeline para extração e indexação de atributos locais e globais para vídeos (novos uploads, primeiro processamento da base existente, reprocessamento da base existente) a ser integrado na aplicação e base de dados; visualização de resultados de busca por conteúdo na base, agregado a nível de operação, com métricas, gráficos e preview de imagens (estáticos e animados); extração e indexação de etiquetas (classificação), caixas (detecção), regiões (segmentação), textos (OCR) para vídeos (novos uploads, primeiro processamento da base existente, reprocessamento da base existentes) a ser integrado na aplicação e base de dados.
* Realizar atividades correlatas, de acordo com orientação do gestor.
">
">
Requisitos:
">
Graduação completa na área de conhecimento de Ciência de Dados, Tecnologia da Informação, Engenharia, Matemática, Estatística, Física ou Química; ou graduação em nível superior em qualquer área de conhecimento acrescida de curso de pós-graduação (especialização, mestrado ou doutorado) com duração mínima de 360 horas na área de conhecimento de Ciência de Dados, Tecnologia da Informação, Engenharia, Matemática, Estatística, Física ou Química.
">
0 a 5 anos de experiência como Cientista de Dados, Analista de Sistemas ou cargo correlato atuando no desenvolvimento de soluções de software na área de Ciência de Dados.
">
Conhecimentos em extração de dados por algoritmo automatizado; conversão dos dados para formatos adequados; normalização de valores numéricos, tratamento de dados ausentes e valores categóricos; pré-processamento de dados não estruturados; aplicação de métodos estatísticos para identificar possíveis correlações entre variáveis e identificar variáveis mais significativas; visualizações gráficas exploratórias, realização de análises exploratórias nos dados a partir de diferentes visualizações gráficas (histogramas, scatterplots, heatmaps, matrizes de correlação, etc.); aplicação de técnicas de engenharia de features, redução de dimensionalidade (PCA, tSNE, SVD) e métodos estatísticos para identificação de features latentes e criação de variáveis derivadas; aplicação de métodos de pré-tratamento para adequação de dados não-estruturados (imagens, dados de sensores, sísmica, áudio, etc.).
">
Local de Trabalho: Rio de Janeiro
">
Atuação: Modelo Híbrido
">
Benefícios:
">
Plano de Saúde; Plano Odontológico; Seguro de Vida; Vale Alimentação ou Refeição; Vale Transporte; WellHub - Gympass
"]},