Desenvolver pipelines de dados robustos utilizando PySpark
Aqui, você encontra um ambiente que valoriza autonomia, colaboração e crescimento contínuo.
Competências e responsabilidades:
* Desenvolver e manter pipelines de dados em lote usando PySpark;
* Escrever e otimizar consultas SQL complexas para dar suporte à lógica de negócios e às necessidades de relatórios;
* Entender requisitos de forma autônoma e traduzir para código;
* Transformar e integrar dados de diversas fontes em tabelas Iceberg e Snowflake;
* Contribuir para o desenvolvimento de data marts e conjuntos de dados selecionados para consumo comercial;
* Colaborar com analistas de negócios para entender necessidades de dados;
* Monitorar e gerenciar trabalhos de dados em execução no AWS EMR orquestrados pelo Airflow, aproveitando S3, Glue e outros serviços da AWS;
* Garantir qualidade, consistência e desempenho dos dados em todo o pipeline.