Esse é um cargo de alto nível, onde você terá a responsabilidade de projetar e implementar pipelines de validação de dados e avaliação de modelos em ambiente cloud (AWS).
O trabalho envolve integrar dados e métricas de avaliação em um fluxo automatizado e auditável, além de modularizar o pipeline para facilitar reuso, testes e manutenção.
Você também trabalhará em colaboração com times de Data Science, Engenharia de Dados e Produto para garantir boas práticas de versionamento, logging, monitoramento e testes automatizados.
Além disso, você terá a responsabilidade de propor melhorias contínuas na arquitetura de dados e nos processos de validação.
Essa posição é remota, o que oferece flexibilidade e autonomia no trabalho.
Requisitos:
O candidato deve ter experiência sólida com engenharia de software aplicada a dados e machine learning. Além disso, ele deve ter proficiência em Python e frameworks como PySpark, Pandas, Scikit-learn ou similares.
O candidato também deve ter experiência com ferramentas e serviços AWS, como S3, Lambda, Step Functions, Glue, Athena, SageMaker ou ECS.
Ainda, ele deve ter conhecimento em MLOps e CI/CD para pipelines de dados e modelos.
* Experiência com orquestração de workflows;
* Familiaridade com métricas de avaliação de modelos (ex: MAE, RMSE, Precision, Recall);
* Capacidade de escrever código limpo, modular e testável;
Desejáveis:
O candidato que tiver experiência com validação de modelos de séries temporais e infraestrutura como código (Terraform, CloudFormation) será considerado favoravelmente.
Além disso, participação em projetos de ML em produção com foco em confiabilidade e rastreabilidade também é um ponto positivo.