Engenheiro de dados sênior

Piracicaba

FOURSYS

Anunciada dia 18 maio

Descrição

🚀 Oportunidade: Engenheiro de Dados Sênior

📍 Modelo: Remoto

📋 Desafios:

Responsabilidades Principais:

• Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados.

• Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação.

• Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas.

• Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos.

• Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS

• Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados.

• Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados.

Competências Técnicas (Hard Skills):

• Linguagens de Programação: Domínio avançado em Python e SQL.

• Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling).

• Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS.

• Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes.

• Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery.

• Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs).

• Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code.

Competências Comportamentais (Soft Skills):

• Visão Analítica e Resolução de Problemas: Capacidade de investigar incidentes em pipelines complexos e propor soluções arquitetônicas eficientes.

• Comunicação Interpessoal: Habilidade para traduzir requisitos de negócios em soluções técnicas e atuar como facilitador entre times de Engenharia de Software, Ciência de Dados e Negócios.

• Senso de Dono (Ownership): Proatividade para monitorar a saúde dos dados e melhorar continuamente a arquitetura.

💡 Hard Skills:

• Python (Sênior)

• SQL (Sênior)

• CLEAN CODE (Sênior)

• DATABRICKS (Sênior)

• AWS Glue (Sênior)

• AWS S3 (Sênior)

• Redshift (Sênior)

• AWS EMR (Sênior)

• PYSPARK (Sênior)

• APACHE AIRFLOW (Sênior)

• GOOGLE BIGQUERY (Sênior)

• GOOGLE CLOUD PLATFORM (Sênior)

• DESENVOLVIMENTO DE PIPELINES ETL/ELT (Sênior)

• CI/CD (Sênior)

• VERSIONAMENTO DE CÓDIGO (Sênior)

• ARQUITETURA DE DATA LAKE (Sênior)

• DATA WAREHOUSE (Sênior)

🤝 Soft Skills:

• SENSO DE DONO (Avançado )

• RESOLUÇÃO DE PROBLEMAS (Avançado )

• Comunicação interpessoal (Avançado )

• VISÃO ANALÍTICA (Avançado )

• Trabalho em equipe e Proatividade (Avançado )

🎯 Benefícios:

• Plano de saúde

• Vale refeição/alimentação

• Ambiente de trabalho colaborativo

• Oportunidades de crescimento

#vaga #oportunidade #tech #usabilidade

Se candidatar

Criar um alerta

Salvar