Buscamos um profissional experiente para assumir o cargo de Engenheiro(a) de Dados Sênior.
Descrição do Cargo
O candidato ideal terá experiência em projetar e otimizar pipelines ETL/ELT de alta performance para ingestão e análise de dados OSINT. Além disso, ele será responsável por criar fluxos de enriquecimento com NLP, tradução automática, NER e resolução de entidades.
O engenheiro(a) de dados também precisará processar grandes volumes de dados com Apache Spark, Delta Lake e Databricks, além de gerenciar soluções de dados no Azure, incluindo Data Factory, Synapse, Databricks e AKS.
Ao trabalhar com nós, você terá a oportunidade de desenvolver soluções de streaming em tempo real com Kafka, Event Hubs, Flink e Spark Streaming, implementar observabilidade, qualidade e linhagem de dados com ferramentas como Great Expectations, Monte Carlo e Unity Catalog, e melhorar o desempenho de consultas e estratégias de particionamento em ambientes analíticos baseados em nuvem.
Requisitos Essenciais
* Inglês em nível avançado (C1);
* Experiência com engenharia de dados, processamento de big data e soluções em nuvem;
* Conhecimento avançado em serviços Azure, como Databricks, Synapse Analytics, Data Lake Storage (ADLS) e Azure Functions;
* Dominio de Apache Spark, PySpark e Scala para processamento de dados em larga escala;
* Familiaridade com arquiteturas Lakehouse, Delta Lake e modelos de dados em camadas (Medallion);
* Sólido entendimento de frameworks ETL/ELT, data warehousing e estratégias de evolução de esquemas;
* Proficiência em SQL, NoSQL e bancos de dados de grafos (ex: PostgreSQL, Cosmos DB, Neo4j, Redis);
* Vivência com conteinerização e orquestração usando Docker, Kubernetes e Helm;
* Conhecimento em frameworks de processamento de fluxo, como Apache Flink, ksqlDB ou Apache Beam;
* Experiência com práticas de segurança de dados, incluindo RBAC, ABAC e criptografia;
* Dominio da linguagem Python e boas práticas de testes com PyTest ou ferramentas similares;
Requisitos Adicionais
* Inglês nível C2;
* Conhecimento em sistemas de informação geoespacial;
* Experiência com pipelines de machine learning utilizando MLflow ou Kubeflow (MLOps);
* Noções de análise de grafos e links aplicadas a fluxos de inteligência;