Oportunidade: Engenheiro de Dados SêniorModelo: Remoto Desafios: Responsabilidades Principais: - Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados. - Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação. - Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas. - Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos. - Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS - Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados. - Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados. Competências Técnicas (Hard Skills): - Linguagens de Programação: Domínio avançado em Python e SQL. - Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling). - Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS. - Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes. - Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery. - Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs). - Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code. Competências Comportamentais (Soft Skills): - Visão Analítica e Resolução de Problemas: Capacidade de investigar incidentes em pipelines complexos e propor soluções arquitetônicas eficientes. - Comunicação Interpessoal: Habilidade para traduzir requisitos de negócios em soluções técnicas e atuar como facilitador entre times de Engenharia de Software, Ciência de Dados e Negócios. - Senso de Dono (Ownership): Proatividade para monitorar a saúde dos dados e melhorar continuamente a arquitetura. Hard Skills: - Python (Sênior) - SQL (Sênior) - CLEAN CODE (Sênior) - DATABRICKS (Sênior) - AWS Glue (Sênior) - AWS S3 (Sênior) - Redshift (Sênior) - AWS EMR (Sênior) - PYSPARK (Sênior) - APACHE AIRFLOW (Sênior) - GOOGLE BIGQUERY (Sênior) - GOOGLE CLOUD PLATFORM (Sênior) - DESENVOLVIMENTO DE PIPELINES ETL/ELT (Sênior) - CI/CD (Sênior) - VERSIONAMENTO DE CÓDIGO (Sênior) - ARQUITETURA DE DATA LAKE (Sênior) - DATA WAREHOUSE (Sênior) Soft Skills: - SENSO DE DONO (Avançado ) - RESOLUÇÃO DE PROBLEMAS (Avançado ) - Comunicação interpessoal (Avançado ) - VISÃO ANALÍTICA (Avançado ) - Trabalho em equipe e Proatividade (Avançado ) Benefícios: - Plano de saúde - Vale refeição/alimentação - Ambiente de trabalho colaborativo - Oportunidades de crescimento #vaga #oportunidade #tech #usabilidade