Responsabilidades e atribuições- Construir e otimizar pipelines de dados para suportar arquiteturas de IA generativa;
- Realizar ingestão, limpeza, transformação e organização de grandes volumes de dados técnicos;
- Estruturar e preparar documentos complexos (normas, requisitos, templates), incluindo técnicas de chunking para uso em modelos de linguagem;
- Implementar e gerenciar bases de conhecimento com busca vetorial (RAG);
- Desenvolver e manter pipelines automatizados de dados com foco em performance e escalabilidade;
- Estruturar datasets para treinamento de modelos (Supervised Fine-Tuning e Reinforcement Fine-Tuning);
- Definir e organizar inputs, outputs esperados e critérios de avaliação dos modelos;
- Garantir governança, qualidade, segurança e rastreabilidade dos dados;
- Atuar na otimização doconsumo de tokens e eficiência dos modelos;
- Suportar análises comparativas de performance entre diferentes abordagens de IA;
- Trabalhar em conjunto com times de IA, engenharia e negócio, garantindo alinhamento técnico e funcional.Requisitos e qualificações- Forte domínio na construção de pipelines de dados (ETL/ELT);
- Experiência com processamento e preparação de dados para IA/ML;
- Conhecimento prático em arquiteturas de IA generativa (RAG, Fine-Tuning, embeddings);
- Experiência com manipulação e estruturação de dados não estruturados (documentos técnicos);
- Vivência com serviços de cloud AWS;
- Experiência com serviços como Amazon Bedrock;
- Conhecimento em bancosde dados vetoriais e técnicas de busca semântica;
- Domínio em Python e SQL;
- Experiência com práticas de governança e segurança de dados;
- Vivência com automaçãoe versionamento de pipelines.