Responsabilidades e atribuições Construir e otimizar pipelines de dados para suportar arquiteturas de IA generativa;
Realizar ingestão, limpeza, transformação e organização de grandes volumes de dados técnicos;
Estruturar e preparar documentos complexos (normas, requisitos, templates), incluindo técnicas de chunking para uso em modelos de linguagem;
Implementar e gerenciarbases de conhecimento com busca vetorial (RAG);
Desenvolver e manter pipelines automatizados de dados com foco em performance e escalabilidade;
Estruturar datasets para treinamento de modelos (Supervised Fine-Tuning e Reinforcement Fine-Tuning);
Definir e organizar inputs, outputs esperados e critérios de avaliação dos modelos;
Garantir governança, qualidade, segurança e rastreabilidade dos dados;
Atuar na otimização do consumo de tokens e eficiência dos modelos;
Suportar análises comparativas de performance entre diferentes abordagens de IA;
Trabalhar em conjunto com times de IA, engenharia e negócio, garantindo alinhamento técnico e funcional. Requisitos e qualificações Forte domínio na construção de pipelines de dados (ETL/ELT);
Experiência com processamento e preparação de dados para IA/ML;
Conhecimento prático emarquiteturas de IA generativa (RAG, Fine-Tuning, embeddings);
Experiência com manipulação e estruturação de dados não estruturados (documentos técnicos);
Vivência com serviços de cloud AWS;
Experiência com serviços como Amazon Bedrock;
Conhecimento em bancos de dados vetoriais e técnicas de busca semântica;
Domínio em Python e SQL;
Experiência com práticas de governança e segurança de dados;
Vivência com automação e versionamento de pipelines.