Principais Responsabilidades e Tarefas
Será o ponto focal para transformar os objetivos de negócio em modelos em produção. As responsabilidades incluem:
* Desenvolvimento e Manutenção de Pipelines de ETL: Atuar no desenvolvimento e otimização dos fluxos de ETL (Extract, Transform, Load) para garantir que os dados sejam movidos e processados corretamente entre as camadas da nossa data pipeline (Bronze, Silver e Gold), sem a necessidade de atuar somente como um analista.
* Modelagem Preditiva: Desenvolver, treinar e validar modelos de séries temporais para a Previsão de Consumo energético, Previsão de Horário de Pico e Alertas de Manutenção Preditiva, utilizando bibliotecas avançadas (e.g., LSTM, TCN, Prophet).
* Desenvolvimento de KPIs Críticos: Criar e validar a lógica de cálculo dos principais KPIs do projeto na camada Gold, garantindo que as métricas de eficiência (e.g., Delta de Temperatura, Custo Evitado) reflitam com precisão os dados da camada Silver.
* Operacionalização (MLOps): Contribuir para a preparação e deploy dos modelos em um ambiente de produção baseado em Spark, Kubernetes e MLflow/Kubeflow, garantindo a escalabilidade e monitoramento contínuo.
* Análise de Dados: Realizar Análise Exploratória de Dados (EDA) robusta para refinar variáveis, identificar anomalias e assegurar a qualidade dos datasets para a modelagem.
Requisitos Técnicos (Hard Skills):
* Experiência comprovada em Python para Data Science (Pandas, Numpy, Scikit-learn).
* Domínio em Machine Learning com foco em séries temporais (TensorFlow ou PyTorch).
* Forte proficiência em Apache Spark (PySpark) para processamento distribuído.
* Conhecimento de SQL e familiaridade com a arquitetura de data pipelines em camadas (Bronze, Silver, Gold).
* Experiência com Docker/Kubernetes e ferramentas de MLOps (MLflow/Kubeflow) é um diferencial.
* Banco de Dados - Cassandra