Como Engenheiro de Dados Sênior, você terá a oportunidade de liderar o desenvolvimento e implementação de um Master Data Management (MDM) de Pacientes.
Trabalhar com Python em uma arquitetura de modelagem de dados do MDM de Pacientes é responsabilidade sua.
Você especificará e documentará regras de negócios para unificação e tratamento de dados de pacientes. Além disso, desenvolverá pipelines de processamento de dados no Databricks, estabelecendo fluxos de qualidade de dados e validação.
Outra responsabilidade é criar e manter tabelas integradas seguindo as regras de negócios estabelecidas, bem como implementar rotinas de atualização e sincronização de dados. Participará também de code reviews e mentoria técnica da equipe.
Requisitos Técnicos
Essenciais:
* Experiência avançada com Python
* Sólidos conhecimentos em: Databricks e Delta Lake, PySpark para processamento de dados em larga escala, SQL e modelagem de dados, ETL/ELT e pipelines de dados
* Experiência com Master Data Management (MDM) ou projetos similares de integração de dados
* Conhecimento em técnicas de matching, fuzzy matching e deduplicação de registros
* Experiência com implementação de regras de negócios complexas em código
* Domínio de versionamento Git e metodologias ágeis
* Experiência com boas práticas de desenvolvimento (testes unitários, documentação)
Diferenciais:
* Experiência prévia com MDM na área de saúde
* Conhecimento em FHIR ou outros padrões de dados de saúde
* Experiência com Great Expectations para qualidade de dados
* Conhecimento em frameworks de governança de dados
* Experiência com mensageria (Kafka, Event Hubs)
* Familiaridade com ferramentas de CDC (Change Data Capture)
* Conhecimento em observabilidade (Databricks SQL Analytics, Grafana)
* Experiência com APIs RESTful para exposição de dados