Um dos principais desafios para qualquer profissional de dados é garantir a qualidade e consistência dos dados em todo o pipeline. No entanto, há muito mais que apenas isso.
Nosso time está à procura de um Analista de Dados PL qualificado com base sólida em desenvolvimento baseado em SQL. Alguém que possa criar e manter data marts, trabalhar com ferramentas de orquestração como Airflow e ter conhecimento sobre padrões ODS e arquitetura de data lake.
Responsabilidades:
* Desenvolver e manter pipelines de dados em lote usando PySpark (focado em SQL);
* Escribir e otimizar consultas SQL complexas para dar suporte à lógica de negócios e às necessidades de relatórios;
* Entender os requisitos de forma autônoma e traduzir para código;
* Transformar e integrar dados de diversas fontes em tabelas Iceberg e Snowflake;
* Contribuir para o desenvolvimento de conjuntos de dados selecionados para consumo comercial;
* Colaborar com analistas de negócios para entender as necessidades de dados;
* Montar e gerenciar trabalhos de dados em execução no AWS EMR ouquestrados pelo Airflow, aproveitando o S3, o Glue e outros serviços da AWS;
Habilidades e Experiências:
* Conhecimento avançado em SQL – incluindo junções, agregações, funções de janela e ajuste de desempenho;
* Familiaridade com ferramentas de infraestrutura como código, como Terraform;
* Experiência comprovada em PySpark, particularmente com Spark SQL;
* Compreensão dos padrões ODS (Operacional Data Store) e arquitetura de data lake;
* Experiência com probabilidade e estatística aplicada ao processo de tomada de decisão;
Bolsa Hora:
Somente bolsa hora disponível.
Prazo indeterminado do contrato.