Descrição Descrição da vaga e responsabilidadesPrecisamos de um(a) cientista de dados com domínio de Python e experiência prática em Large Language Models (LLMs) para desenvolver análises, protótipos e soluções de IA em ambiente Google Cloud Platform.Responsabilidades-chaveExplorar, limpar e preparar dados estruturados e não estruturados usando Python, Pandas, PySpark ou BigQuery.Treinar, ajustar (fine tune) e avaliar modelos de machine learning, incluindo LLMs, garantindo métricas de qualidade e desempenho.Projetar prompts eficazes, implementar fluxos de RAG (Retrieval Augmented Generation) e conduzir experimentos de IA generativa.Construir pipelines de experimentação e automação (MLFlow, Airflow ou ferramentas equivalentes).Provisionar, configurar e otimizar instâncias Compute Engine (CPU/GPU) para treinar ou servir modelos quando serviços gerenciados não atenderem.Desenvolver scripts de deploy e monitoramento em GCP (Cloud Build, Cloud Monitoring, Logging).Documentar processos, versionar código em Git e participar de code reviews.Apresentar insights e resultados por meio de notebooks Jupyter, dashboards ou relatórios executivos. Requisitos Requisitos da vagaObrigatóriosSólida experiência em Python para ciência de dados (Pandas, NumPy, Scikit learn).Conhecimento prático de LLMs: uso de APIs, fine tuning básico, criação de prompts e avaliação de outputs.Experiência em modelagem e treinamento de algoritmos clássicos de ML, feature engineering e ajuste de hiperparâmetros.Boa comunicação para explicar resultados técnicos a times multidisciplinares.DiferenciaisFamiliaridade com Google Cloud Platform, incluindo:BigQuery e Cloud Storage para dados.Compute Engine: criação, configuração e otimização de instâncias (CPU/GPU).Ferramentas de automação (Cloud Build, Cloud Logging/Monitoring) para CI/CD e observabilidade.Proficiência em SQL para análise e modelagem de dados.Git para versionamento de código e trabalho colaborativo.Experiência com bibliotecas de IA generativa open source (Hugging Face Transformers, LangChain, Llama Index).Conhecimento de MLOps (MLFlow Registry, TFX, CI/CD para modelos).Implementação de pipelines de dados/ML em Airflow ou Composer.Participação em competições de ciência de dados ou publicações técnicas.Noções de IA generativa multimodal (texto + imagem ou visão computacional).