Responsabilidades e atribuições
* Construir e otimizar pipelines de dados para suportar arquiteturas de IA generativa;
* Realizar ingestão, limpeza, transformação e organização de grandes volumes de dados técnicos;
* Estruturar e preparar documentos complexos (normas, requisitos, templates), incluindo técnicas de chunking para uso em modelos de linguagem;
* Implementar e gerenciar bases de conhecimento com busca vetorial (RAG);
* Desenvolver e manter pipelines automatizados de dados com foco em performance e escalabilidade;
* Estruturar datasets para treinamento de modelos (Supervised Fine-Tuning e Reinforcement Fine-Tuning);
* Definir e organizar inputs, outputs esperados e critérios de avaliação dos modelos;
* Garantir governança, qualidade, segurança e rastreabilidade dos dados;
* Atuar na otimização do consumo de tokens e eficiência dos modelos;
* Suportar análises comparativas de performance entre diferentes abordagens de IA;
* Trabalhar em conjunto com times de IA, engenharia e negócio, garantindo alinhamento técnico e funcional.
Requisitos e qualificações
* Forte domínio na construção de pipelines de dados (ETL/ELT);
* Experiência com processamento e preparação de dados para IA/ML;
* Conhecimento prático em arquiteturas de IA generativa (RAG, Fine-Tuning, embeddings);
* Experiência com manipulação e estruturação de dados não estruturados (documentos técnicos);
* Vivência com serviços de cloud AWS;
* Experiência com serviços como Amazon Bedrock;
* Conhecimento em bancos de dados vetoriais e técnicas de busca semântica;
* Domínio em Python e SQL;
* Experiência com práticas de governança e segurança de dados;
* Vivência com automação e versionamento de pipelines.