Description
Coletamos, processamos e acionamos milhões de dados de lojas físicas, e-commerces, dados de navegação e fidelidade. Por meio da tecnologia, tornamos a comunicação de massa altamente personalizada e automatizada.
Responsibilities
Engenheiro de Dados Sênior
Engenheiro de Dados Sênior com foco em desenvolvimento de Pipelines e fluxos de ETL.
Buscamos um profissional que deve dominar um ecossistema diversificado de ferramentas que garantam o ciclo completo do dado, priorizando orquestradores robustos como Apache Airflow ou Prefect para gerenciar dependências e fluxos de trabalho. É essencial o domínio de frameworks de processamento distribuído, com destaque absoluto para o Apache Spark (PySpark), além de ferramentas de transformação e processamento de dados para construção sólidos de ETL utilizando Databricks e/ou Snowflake. Por fim, a fluência em serviços nativos de nuvem (como AWS Glue, Azure Data Factory ou Google Cloud Dataflow) e soluções de ingestão e streaming, como Kafka ou Fivetran, completa o arsenal necessário para construir pipelines escaláveis, resilientes e de baixa manutenção.
Responsabilidades:
* Engenharia de Pipelines Modernos: Desenvolver fluxos de ETL/ELT utilizando Python e serviços gerenciados de nuvem. Orquestrar a ingestão de dados de múltiplas fontes para nosso Data Lake/Warehouse (BigQuery/S3).
* Infraestrutura como Código (IaC): Provisionar e gerenciar recursos na AWS e GCP utilizando Terraform ou scripts de automação, garantindo ambientes reprodutíveis e seguros.
* Otimização e Custos (FinOps): Monitorar e otimizar o desempenho das queries e processamentos, garantindo eficiência de custo na nuvem (ex: uso correto de instâncias, particionamento de tabelas no BigQuery).
* Governança e Qualidade: Implementar verificações automáticas de qualidade de dados (Data Quality) e garantir a observabilidade dos pipelines (alertas de falha, latência).
Prerequisites
Competências Técnicas (Hard Skills):
Como profissional Sênior, espera-se domínio profundo de arquitetura e automação:
Linguagem de Programação:
* Domínio avançado de Python (Obrigatório). Foco em escrita de código limpo, modular e testável.
* Experiência sólida no desenvolvimento de fluxos de ETL/ELT
* Diferencial: Experiência em PySpark para processamento distribuído.
Ambiente Cloud (AWS & GCP):
* AWS: Conhecimento em serviços como S3, Lambda, Glue, EMR, Kinesis e SageMaker.
* GCP: Domínio de BigQuery (essencial), Cloud Functions, Dataflow e Vertex AI.
* Conhecimento em Databricks e Snowflake são diferenciais, principalmente em Databricks.
* Modern Data Warehouse: Experiência avançada em BigQuery, Snowflake ou Redshift, com foco em modelagem (Star Schema, Data Vault 2.0) e controle de custos (FinOps).
* Orquestração: Domínio de ferramentas como Airflow, Prefect ou Dagster para gerenciar dependências complexas de pipelines.
Banco de Dados e SQL:
* SQL Avançado para Data Warehousing (foco em performance analítica).
Infraestrutura e Deploy:
* Conhecimentos em docker (containerização de scripts e modelos).
* Noção básica de Terraform (IaC).
* Conhecimentos de CI/CD (GitHub Actions, GitLab CI ou CodePipeline).
Competências Comportamentais (Soft Skills):
Como profissional Sênior, espera-se domínio profundo em: visão de negócio, pensamento crítico e adaptabilidade.
* Agnóstico e Flexível: Consegue transitar entre AWS e GCP escolhendo a melhor ferramenta para o problema, sem "bairrismo" tecnológico.
* Visão de Produto de Dados: Entende que o pipeline não é o fim, mas o meio para entregar valor ao negócio. Preocupa-se se o dado chegou no horário certo para o Marketing usar.
* Colaboração Ativa: Atua como o "melhor amigo" do Cientista de Dados, ajudando a otimizar códigos ineficientes sem criar atrito.
* Mentoria e Liderança Técnica: Capacidade de orientar cientistas de dados sobre melhores práticas de escrita de código produtivo e escalabilidade.
* Pensamento Sistêmico: Habilidade para enxergar o fluxo do dado desde a origem (log de navegação) até o impacto final no cliente, antecipando gargalos de infraestrutura.
* Comunicação entre Áreas: Atuar como tradutor entre os requisitos de infraestrutura (TI), as necessidades de modelagem (Data Science) e os objetivos de negócio (Marketing/CRM).
* Resolução de Problemas Complexos: Calma e precisão para atuar em incidentes em produção que afetem a experiência do usuário em tempo real.
* Advogado da Qualidade: Rigor com a governança de dados, segurança e conformidade (LGPD), garantindo que a automação não comprometa a privacidade do cliente.
Experiences
- Experiência com sistemas de recomendações são indispensáveis para este desafio.
- Inglês e/ou espanhol.