Engenheiro de dados sênior

Santo André

FOURSYS

Anunciada dia 18 maio

Descrição

🚀 Oportunidade: Engenheiro de Dados Sênior

📍 Modelo: Remoto

📋 Desafios:

Responsabilidades Principais:

- Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados.

- Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação.

- Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas.

- Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos.

- Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS

- Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados.

- Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados.

Competências Técnicas (Hard Skills):

- Linguagens de Programação: Domínio avançado em Python e SQL.

- Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling).

- Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS.

- Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes.

- Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery.

- Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs).

- Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code.

Competências Comportamentais (Soft Skills):

- Visão Analítica e Resolução de Problemas: Capacidade de investigar incidentes em pipelines complexos e propor soluções arquitetônicas eficientes.

- Comunicação Interpessoal: Habilidade para traduzir requisitos de negócios em soluções técnicas e atuar como facilitador entre times de Engenharia de Software, Ciência de Dados e Negócios.

- Senso de Dono (Ownership): Proatividade para monitorar a saúde dos dados e melhorar continuamente a arquitetura.

💡 Hard Skills:

- Python (Sênior)

- SQL (Sênior)

- CLEAN CODE (Sênior)

- DATABRICKS (Sênior)

- AWS Glue (Sênior)

- AWS S3 (Sênior)

- Redshift (Sênior)

- AWS EMR (Sênior)

- PYSPARK (Sênior)

- APACHE AIRFLOW (Sênior)

- GOOGLE BIGQUERY (Sênior)

- GOOGLE CLOUD PLATFORM (Sênior)

- DESENVOLVIMENTO DE PIPELINES ETL/ELT (Sênior)

- CI/CD (Sênior)

- VERSIONAMENTO DE CÓDIGO (Sênior)

- ARQUITETURA DE DATA LAKE (Sênior)

- DATA WAREHOUSE (Sênior)

🤝 Soft Skills:

- SENSO DE DONO (Avançado )

- RESOLUÇÃO DE PROBLEMAS (Avançado )

- Comunicação interpessoal (Avançado )

- VISÃO ANALÍTICA (Avançado )

- Trabalho em equipe e Proatividade (Avançado )

🎯 Benefícios:

- Plano de saúde

- Vale refeição/alimentação

- Ambiente de trabalho colaborativo

- Oportunidades de crescimento

#vaga #oportunidade #tech #usabilidade

Se candidatar

Criar um alerta

Salvar