Desenvolver e manter pipelines de dados em lote usando o PySpark
Como analista de dados, você trabalhará na criação e manutenção de pipelines de dados que gerenciam grandes volumes de informações. Utilizando a linguagem SQL como base, desenvolverá consultas complexas para suportar as necessidades de relatórios e a lógica de negócios.
Aqui estão as principais responsabilidades:
* Desenvolver e manter pipelines de dados em lote utilizando o PySpark;
* Esvrver e otimizar consultas SQL complexas para dar suporte à lógica de negócios e às necessidades de relatórios;
* Entender os requisitos de forma autônoma e traduzir para código;
* Transformar e integrar dados de diversas fontes em tabelas Iceberg e Snowflake;
* Contribuir para o desenvolvimento de data marts e conjuntos de dados selecionados para consumo comercial;
* Colaborar com analistas de negócios para entender as necessidades de dados;
* Monitore e gerencie trabalhos de dados em execução no AWS EMR orquestrados pelo Airflow, aproveitando o S3, o Glue e outros serviços da AWS;
Também é necessário garantir a qualidade, a consistência e o desempenho dos dados em todo o pipeline.
Nível de Experiência Desejado: Pleno.
Modelo de contratação CLT.
Obrigatório possuir experiência em SQL – incluindo junções, agregações, funções de janela e ajuste de desempenho;
e experiência prática com o PySpark, particularmente com o Spark SQL.