Sobre o perfil:
Procuramos um profissional para ajudar a evolução do nosso ecossistema de dados baseado DeltaLake/Spark/Superset, governança, qualidade e performance. Papel hands-on, autonomia e impacto direto no negócio.
Responsabilidades:
- Desenvolver e operar pipelines escaláveis baseados em Python;
- Modelar dados,usando um arquitetura medalhão, otimizando custo e performance;
- Otimizar consultas, partições, índices e storage (Parquet/Delta);
- Monitorar saúde/custos dos pipelines e documentar arquitetura, fluxos e dicionário de dados.
Requisitos técnicos:
- SQL avançado e modelagem;
- Python, Spark,Deltalake e Arquitetura Medalhão;
- Desenvolvimento de pipelines em python e Airflow;
- Versionamento com GitHub e CI/CD;
- Métodos ágeis e comunicação clara com públicos técnicos e de negócio.
Diferenciais:
- Conhecimentos de Superset (implantação/uso);
- Conhecimento de Lakehouse;
- Boas práticas de Data Viz;
- Inglês técnico.
Obs.: Importante é menos foco microsoft e mais foco opensource, python, spark, airdlow, etc.