🚀 Oportunidade: Engenheiro de Dados Sênior
📍 Modelo: Remoto
📋 Desafios:
Responsabilidades Principais:
• Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados.
• Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação.
• Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas.
• Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos.
• Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS
• Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados.
• Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados.
Competências Técnicas (Hard Skills):
• Linguagens de Programação: Domínio avançado em Python e SQL.
• Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling).
• Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS.
• Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes.
• Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery.
• Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs).
• Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code.
Competências Comportamentais (Soft Skills):
• Visão Analítica e Resolução de Problemas: Capacidade de investigar incidentes em pipelines complexos e propor soluções arquitetônicas eficientes.
• Comunicação Interpessoal: Habilidade para traduzir requisitos de negócios em soluções técnicas e atuar como facilitador entre times de Engenharia de Software, Ciência de Dados e Negócios.
• Senso de Dono (Ownership): Proatividade para monitorar a saúde dos dados e melhorar continuamente a arquitetura.
💡 Hard Skills:
• Python (Sênior)
• SQL (Sênior)
• CLEAN CODE (Sênior)
• DATABRICKS (Sênior)
• AWS Glue (Sênior)
• AWS S3 (Sênior)
• Redshift (Sênior)
• AWS EMR (Sênior)
• PYSPARK (Sênior)
• APACHE AIRFLOW (Sênior)
• GOOGLE BIGQUERY (Sênior)
• GOOGLE CLOUD PLATFORM (Sênior)
• DESENVOLVIMENTO DE PIPELINES ETL/ELT (Sênior)
• CI/CD (Sênior)
• VERSIONAMENTO DE CÓDIGO (Sênior)
• ARQUITETURA DE DATA LAKE (Sênior)
• DATA WAREHOUSE (Sênior)
🤝 Soft Skills:
• SENSO DE DONO (Avançado )
• RESOLUÇÃO DE PROBLEMAS (Avançado )
• Comunicação interpessoal (Avançado )
• VISÃO ANALÍTICA (Avançado )
• Trabalho em equipe e Proatividade (Avançado )
🎯 Benefícios:
• Plano de saúde
• Vale refeição/alimentação
• Ambiente de trabalho colaborativo
• Oportunidades de crescimento
#vaga #oportunidade #tech #usabilidade