🚀 Oportunidade: Engenheiro de Dados Sênior
📍 Modelo: Remoto
📋 Desafios:
Responsabilidades Principais:
- Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados.
- Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação.
- Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas.
- Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos.
- Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS
- Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados.
- Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados.
Competências Técnicas (Hard Skills):
- Linguagens de Programação: Domínio avançado em Python e SQL.
- Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling).
- Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS.
- Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes.
- Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery.
- Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs).
- Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code.
Competências Comportamentais (Soft Skills):
- Visão Analítica e Resolução de Problemas: Capacidade de investigar incidentes em pipelines complexos e propor soluções arquitetônicas eficientes.
- Comunicação Interpessoal: Habilidade para traduzir requisitos de negócios em soluções técnicas e atuar como facilitador entre times de Engenharia de Software, Ciência de Dados e Negócios.
- Senso de Dono (Ownership): Proatividade para monitorar a saúde dos dados e melhorar continuamente a arquitetura.
💡 Hard Skills:
- Python (Sênior)
- SQL (Sênior)
- CLEAN CODE (Sênior)
- DATABRICKS (Sênior)
- AWS Glue (Sênior)
- AWS S3 (Sênior)
- Redshift (Sênior)
- AWS EMR (Sênior)
- PYSPARK (Sênior)
- APACHE AIRFLOW (Sênior)
- GOOGLE BIGQUERY (Sênior)
- GOOGLE CLOUD PLATFORM (Sênior)
- DESENVOLVIMENTO DE PIPELINES ETL/ELT (Sênior)
- CI/CD (Sênior)
- VERSIONAMENTO DE CÓDIGO (Sênior)
- ARQUITETURA DE DATA LAKE (Sênior)
- DATA WAREHOUSE (Sênior)
🤝 Soft Skills:
- SENSO DE DONO (Avançado )
- RESOLUÇÃO DE PROBLEMAS (Avançado )
- Comunicação interpessoal (Avançado )
- VISÃO ANALÍTICA (Avançado )
- Trabalho em equipe e Proatividade (Avançado )
🎯 Benefícios:
- Plano de saúde
- Vale refeição/alimentação
- Ambiente de trabalho colaborativo
- Oportunidades de crescimento
#vaga #oportunidade #tech #usabilidade