Descrição do Cargo
Buscamos profissionais de alto nível para projetar, implementar e manter pipelines de dados escaláveis em lote usando PySpark. A pessoa ideal deverá ter conhecimento avançado de linguagem de programação SQL, incluindo junções, agregações, funções de janela e ajuste de desempenho.
As principais responsabilidades incluem:
* Desenvolver e manter pipelines de dados em lote usando PySpark;
* Escribir e otimizar consultas SQL complexas para dar suporte à lógica de negócios e às necessidades de relatórios;
* Entender os requisitos de forma autônoma e traduzi-los para código;
* Transformar e integrar dados de diversas fontes em tabelas Iceberg e Snowflake;
* Contribuir para o desenvolvimento de data marts e conjuntos de dados selecionados para consumo comercial;
* Colaborar com analistas de negócios para entender as necessidades de dados;
* Monitore e gerencie trabalhos de dados em execução no AWS EMR orquestrados pelo Airflow, aproveitando o S3, o Glue e outros serviços da AWS;
* Garantir a qualidade, a consistência e o desempenho dos dados em todo o pipeline;
Habilidades e Qualificações Requeridas
* Conhecimento avançado de linguagem de programação SQL;
* Experiência com PySpark e AWS;
* Familiaridade com serviços da AWS, como EMR e S3;
* Compreensão das estruturas de modelagem de dados e experiência com data warehouses;
Vantagens
A oportunidade de trabalhar em um ambiente dinâmico e desafiador, com acesso a tecnologias e ferramentas inovadoras.
Otros
Apoio contínuo para o desenvolvimento de habilidades e conhecimentos; Ambiente colaborativo e apoiador.