É muito importante que você tenha e/ou saiba:
1. Experiência sólida em engenharia de dados (mínimo 6 anos);
2. Domínio de Spark (PySpark ou Scala) em ambientes distribuídos;
3. Experiência com Databricks e Delta Lake;
4. Conhecimentos avançados em SQL e modelagem de dados (Kimball, Data Vault, etc);
5. Experiência com clouds (Azure ou AWS), especialmente com serviços de dados;
6. Conhecimento em orquestração de pipelines (ex: Airflow, ADF, Databricks Jobs);
7. Familiaridade com CI/CD, versionamento de código (Git) e boas práticas de software;
8. Experiência com armazenamento de dados em nuvem (Blob Storage, S3, GCS);
9. Noções de segurança e governança de dados (ex: Unity Catalog, IAM, RBAC).
Desejáveis (diferenciais)
10. Experiência com MLOps e integração com modelos de machine learning;
11. Conhecimento em Feature Store, MLflow, ou pipelines de modelagem;
12. Vivência com ferramentas como dbt, Terraform, Docker;
13. Experiência em ambientes regulados (financeiro, saúde, etc);
14. Participação em squads multidisciplinares com cultura ágil.
Os desafios da função são:
15. Projetar, construir e manter pipelines de dados escaláveis (batch e streaming);
16. Participar da modelagem e organização de dados em ambientes Lakehouse;
17. Garantir qualidade, performance e governança dos dados em produção;
18. Implementar e manter Data Lakes / Data Warehouses em cloud (ex: Delta Lake, Snowflake, S3);
19. Automatizar processos de ingestão, transformação e carga de dados;
20. Trabalhar em conjunto com cientistas de dados, analistas e engenheiros de software;
21. Atuar com boas práticas de DataOps / MLOps e versionamento de dados;
22. Participar da definição de arquitetura de dados moderna e segura.