Responsabilidades e atribuiçõesConstruir e otimizar pipelines de dados para suportar arquiteturas de IA generativa;Realizar ingestão, limpeza, transformação e organização de grandes volumes de dados técnicos;Estruturar e preparar documentos complexos (normas, requisitos, templates), incluindo técnicas de chunking para uso em modelos de linguagem;Implementar e gerenciar bases de conhecimento com busca vetorial (RAG);Desenvolver e manter pipelines automatizados de dados com foco em performance e escalabilidade;Estruturar datasets para treinamento de modelos (Supervised Fine-Tuning e Reinforcement Fine-Tuning);Definir e organizar inputs, outputs esperados e critérios de avaliação dos modelos;Garantir governança, qualidade, segurança e rastreabilidade dos dados;Atuar na otimização do consumo de tokens e eficiência dos modelos;Suportar análises comparativas de performance entre diferentes abordagens de IA;Trabalhar em conjunto com times de IA, engenharia e negócio, garantindo alinhamento técnico e funcional.Requisitos e qualificaçõesForte domínio na construção de pipelines de dados (ETL/ELT);Experiência com processamento e preparação de dados para IA/ML;Conhecimento prático em arquiteturas de IA generativa (RAG, Fine-Tuning, embeddings);Experiência com manipulação e estruturação de dados não estruturados (documentos técnicos);Vivência com serviços de cloud AWS;Experiência com serviços como Amazon Bedrock;Conhecimento em bancos de dados vetoriais e técnicas de busca semântica;Domínio em Python e SQL;Experiência com práticas de governança e segurança de dados;Vivência com automação e versionamento de pipelines.