Cientista de Dados Sênior | Hibrido em Fortaleza ou SP | PJ
Join to apply for the Cientista de Dados Sênior | Hibrido em Fortaleza ou SP | PJ role at Tecla T
Como Cientista de Dados Sênior você fará parte de uma equipe analítica madura, atuando com projetos de ponta de machine learning e de grandes modelos de linguagem (LLMs) para tratar dados clínicos, operacionais e de beneficiários. A sua missão será transformar dados não estruturados ou semiestruturados (como laudos, prontuários, relatórios) em informação com valor para o negócio, via extração, classificação, detecção e geração de insights.
Principais Responsabilidades
Trabalhar com dados não estruturados e/ou semiestruturados (por exemplo: laudos médicos, prontuários, relatórios clínicos) para extração de informação, classificação de documentos, detecção de padrões e automação de processos baseados em linguagem.
Projetar, desenvolver e implantar modelos de machine learning e de LLMs para casos de uso específicos de saúde (ex: extração de entidades de texto, sumarização, classificação, inferência de risco ou condição).
Utilizar plataformas de dados e ML escaláveis (como Databricks) para construir pipelines: aquisição de dados, limpeza, transformação, engenharia de features, modelagem, validação, implantação, monitoramento e manutenção.
Colaborar com equipes de negócio, TI, inovação e operações clínicas para entender os desafios, definir hipóteses, selecionar as métricas certas e medir o impacto no negócio.
Garantir que os modelos e soluções estejam alinhados com boas práticas de qualidade de dados, governança, ética, privacidade e anonimização / pseudonimização (LGPD) de forma apropriada para o contexto de saúde.
Comunicar de forma clara e eficaz os resultados técnicos para públicos não-técnicos, contando a história dos dados, recomendando mudanças de processos ou novas soluções.
Requisitos
Formação superior em Ciência de Dados, Estatística, Engenharia, Matemática, Computação ou área relacionada.
Experiência sênior (por exemplo: 5 ou mais anos) em ciência de dados ou machine learning, com histórico comprovado de entrega de projetos em produção.
Experiência prática com grandes modelos de linguagem (LLMs): fine-tuning, prompt engineering, integração em pipelines de dados, análise dos resultados.
Proficiência em Python (bibliotecas como pandas, numpy, scikit-learn, TensorFlow ou PyTorch) e em SQL para trabalhar com grandes volumes de dados.
Experiência com plataforma Databricks ou equivalente no contexto de big data + ML.
Experiência ou familiaridade com dados de saúde ou ambientes regulamentados será um diferencial (por exemplo: prontuários, laudos médicos, operadora de saúde).
Excelentes habilidades de comunicação, capacidade de traduzir resultados técnicos em valor para o negócio e trabalhar de forma remota com autonomia.
Diferenciais Desejáveis
Experiência com modelos de NLP/LLM em português ou em múltiplas línguas aplicada ao setor de saúde ou seguros.
Experiência com MLOps: pipelines de deploy, monitoramento de desempenho, retraining, versionamento de modelos.
Conhecimento de frameworks de explicabilidade de modelos, fairness/viés algorítmico, interpretação de modelos.
Conhecimento aplicado em privacidade de dados, anonimização ou pseudonimização em ambiente de saúde (conforme LGPD).
Familiaridade com ferramentas de visualização de dados (ex: Qlick, Power BI) ou arquitetura de dados em nuvem (ex: Azure, GCP).
Benefícios
13º Salário
Fornecimento de máquina pela empresa
Descanso remunerado de 30 dias após 12 meses
#J-18808-Ljbffr