Informações de negócios são a chave para tomar decisões informadas e melhorar processos. O objetivo principal é garantir que todos os dados estejam atualizados e precisos, permitindo que as organizações tomem decisões mais confiáveis.
O Engenheiro de Dados Sênior terá como responsabilidade liderar o desenvolvimento e implementação de um Master Data Management (MDM) de Pacientes em uma plataforma de larga escala. Será necessário trabalhar na modelagem de dados, especificação de regras de negócios e implementação dessas regras e tabelas no ambiente Databricks.
A arquitetura de modelagem de dados do MDM deve ser projetada para unificar dados de pacientes provenientes de múltiplos sistemas de origem. Além disso, será necessário estabelecer fluxos de qualidade de dados e validação, além de criar e manter tabelas integradas seguindo as regras de negócios estabelecidas.
O profissional selecionado deverá ter experiência avançada com Python e sólidos conhecimentos em Databricks e Delta Lake, PySpark para processamento de dados em larga escala, SQL e modelagem de dados, ETL/ELT e pipelines de dados.
Também é desejável ter experiência com Master Data Management (MDM) ou projetos similares de integração de dados, conhecimento em técnicas de matching, fuzzy matching e deduplicação de registros, experiência com implementação de regras de negócios complexas em código e domínio de versionamento Git e metodologias ágeis.
Especificações
* Desenvolver e implementar a arquitetura de modelagem de dados do MDM de Pacientes;
* Especificar e documentar regras de negócios para unificação e tratamento de dados de pacientes;
* Implementar pipelines de processamento de dados no Databricks;
* Desenvolver lógicas para matching, deduplicate e golden record de pacientes;
* Estabelecer fluxos de qualidade de dados e validação;
* Criar e manter tabelas integradas seguindo as regras de negócios estabelecidas;
* Implementar rotinas de atualização e sincronização de dados;
Requisitos
* Experiência avançada com Python;
* Sólidos conhecimentos em: Databricks e Delta Lake; PySpark para processamento de dados em larga escala; SQL e modelagem de dados; ETL/ELT e pipelines de dados;
Diferenciais
* Experiência prévia com MDM na área de saúde;
* Conhecimento em FHIR ou outros padrões de dados de saúde;
* Experiência com Great Expectations para qualidade de dados;
* Conhecimento em frameworks de governança de dados;
* Experiência com mensageria (Kafka, Event Hubs);
* Familiaridade com ferramentas de CDC (Change Data Capture);
* Conhecimento em observabilidade (Databricks SQL Analytics, Grafana);
* Experiência com APIs RESTful para exposição de dados;