Engenheiro(a) de Dados Sênior
100% Remoto | CLT
Estamos em busca de um(a) Engenheiro(a) de Dados para atuar em um ambiente robusto de dados, com foco em construção e evolução de pipelines em larga escala, integração de múltiplas fontes e processamento distribuído em cloud.
O que você vai fazer:
Desenvolver e manter pipelines de dados com PySpark
Orquestrar workflows com Apache Airflow (DAGs em Python)
Trabalhar com processamento distribuído em ambiente AWS (EMR)
Integrar dados de diferentes fontes, incluindo APIs
Atuar na ingestão, transformação e disponibilização de dados
Garantir qualidade, performance e escalabilidade dos pipelines
O que buscamos:
Experiência com PySpark (Spark + Python)
Vivência com Airflow (criação/manutenção de DAGs)
Experiência com Scala
Experiência com APIs
Experiência com AWS (especialmente EMR, S3, Glue)
SQL sólido para manipulação de dados
Vivência com notebooks (Jupyter ou similares)
Diferenciais:
Experiência com arquitetura de dados (Data Lake / Lakehouse)
Vivência em ambientes de alto volume (Big Data)
Perfil comportamental:
Buscamos alguém com boa comunicação, autonomia e perfil consultivo, já que terá interação direta com o cliente.