Resumo
O objetivo é criar e manter pipelines de dados eficientes usando o PySpark, com SQL como linguagem principal.
Sobre a Vaga
É necessário ter uma base sólida em desenvolvimento baseado em SQL, experiência com Airflow e conhecimento dos serviços de dados da AWS.
Responsabilidades
- Desenvolver e manter pipelines de dados em lote usando o PySpark;
- Escrever e otimizar consultas SQL complexas;
- Contribuir para o desenvolvimento de data marts e conjuntos de dados selecionados;
- Colaborar com analistas de negócios para entender as necessidades de dados;
- Monitore e gerencie trabalhos de dados em execução no AWS EMR orquestrados pelo Airflow;
Requisitos Técnicos e de Experiência:
- Analista de Dados PL qualificado;
- Base sólida em desenvolvimento baseado em SQL;
- Experiência com Airflow ou outras ferramentas de orquestração;
- Conhecimento dos padrões ODS e arquitetura de data lake;
- Experiência com Bitbucket e Jenkins;
Habilidades Comportamentais e Competências:
- Fluência em inglês;
- Experiência comprovada em SQL;
- Experiência prática com o PySpark, particularmente com o Spark SQL;
- Familiaridade com os serviços de dados da AWS.