O que esperamos de você
* Graduação em Ciência da Computação, Engenharia, Estatística, Matemática, Física ou áreas relacionadas;
* Desejável pós-graduação em áreas correlatas;
* Experiência comprovada em projetos Big Data, Data Warehouse, Ciência de Dados, tendo a compreensão dos conceitos de Data Lake e Lake Warehouse, e experiência em projetar e implementar arquiteturas de armazenamento de dados eficientes para suportar análises Big Data;
* Experiência em projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas para processar, limpar, transformar e carregar dados de várias fontes para armazenamento e análise;
* Profundo conhecimento em Python, Airflow e Big Data & Data Lake;
* Experiência com configuração de ambiente Airflow em Kubernetes AKS;
* Habilidade para realizar tuning avançado de DAGs do Airflow;
* Sólidos conhecimentos em construir pipelines de dados, escrever APIs, e realizar processos de data ingestion, cleansing e data preparation;
* Experiência com GitHub e Docker para construção de repositórios de DataOps;
* Conhecimento em MLOps para apoiar os Cientistas de Dados;
* Colaborar efetivamente com equipes multidisciplinares, comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas;
* Experiência com manipulação de grandes volumes de dados;
* Experiência com criação de especificação técnica e funcional;
* Compreensão de metodologias Agile;
* Sólidos conhecimentos em modelagem, desenvolvimento e monitoramento de processos.
Como será o seu dia a dia
Papéis e Responsabilidades:
Arquitetura de Dados:
* Projetar e implementar arquiteturas Big Data em Nuvem (preferencialmente Azure).
* Definir estratégias para organização e modelagem dos dados no Data Lake, garantindo sua integridade, segurança e governança.
Desenvolvimento de Pipelines de Dados:
* Projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas utilizando ferramentas como Apache Spark, Airflow, Azure Data Factory;
* Realizar processos de ingestão, limpeza, transformação e carga de dados de várias fontes para o Data Lake.
Integração com Machine Learning / Artificial Intelligence:
* Colaborar com os cientistas de dados na preparação e disponibilização dos dados necessários para construção e treinamento de modelos de ML/AI;
* Integrar pipelines de dados com ferramentas e serviços de ML/AI .
Configuração e Tuning do Airflow em Kubernetes (Azure ou AWS):
* Configurar e gerenciar ambientes Airflow em Kubernetes, garantindo alta disponibilidade, escalabilidade e eficiência na execução de DAGs.
* Realizar tuning avançado de DAGs do Airflow para otimizar o desempenho e a confiabilidade dos pipelines de dados.
Práticas de DevOps e MLOps:
* Utilizar ferramentas como GitHub e Docker para construir e gerenciar repositórios de DataOps, facilitando o versionamento e a colaboração no desenvolvimento de pipelines de dados;
* Apoiar os cientistas de dados na implementação de práticas de MLOps para garantir o monitoramento contínuo dos modelos de ML / AI em produção.
Colaboração e Comunicação:
* Colaborar de forma eficaz com equipes multidisciplinares, incluindo analistas de requisitos, cientistas de dados, desenvolvedores e stakeholders;
* Comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas, demonstrando o valor e o impacto dos insights gerados pela análise de dados.