Uma das principais responsabilidades do analista de dados é o desenvolvimento de pipelines de dados em lote usando PySpark, SQL e outras ferramentas.
Atribuições:
* Desenvolver e manter pipelines de dados em lote utilizando PySpark (focado em SQL)
* Escribir e otimizar consultas SQL complexas para dar suporte à logica de negocio e às necessidades de relatorios
* Entender os requisitos de forma autonoma e traduzir para código
* Transformar e integrar dados de diversas fontes em tabelas Iceberg e Snowflake
* Contribuir para o desenvolvimento de data marts e conjuntos de dados selecionados para consumo comercial
* Colaborar com analistas de negócios para entender as necessidades de dados
* Monerar e gerenciar trabalhos de dados em execução no AWS EMR orquestrados pelo Airflow, aproveitando o S3, o Glue e outros serviços da AWS
* Garantir a qualidade, a consistência e o desempenho dos dados em todo o pipeline
Competências e Experiência:
* Analista de Dados PL qualificado com base sólida em desenvolvimento baseado em SQL
* Experiência na criação e manutenção de data marts
* Exposição ao Airflow ou outras ferramentas de orquestração
* Familiaridade com ferramentas de infraestrutura como código, como o Terraform
* Compreensão dos padrões ODS (Operacional Data Store) e arquitetura de data lake
* Experiência com Bitbucket (ou qualquer ferramenta git semelhante)
* Experiência/compreensão de Jenkins
Vantagens:
* A oportunidade de trabalhar com tecnologias avançadas
* Oportunidade de desenvolver habilidades em uma área em constante evolução
* Possibilidade de contribuir para o sucesso da empresa