 
        
        Buscamos um(a) Engenheiro(a) de Dados e Machine Learning para liderar a construção da camada de inteligência de uma nova plataforma SaaS. Sua missão será desenhar e implementar toda a infraestrutura de dados, desde a ingestão até a disponibilização para análise, e desenvolver o núcleo de um assistente de IA inovador. Se você é apaixonado(a) por arquitetura de dados, processamento em larga escala e pela aplicação de modelos de linguagem (LLMs) para criar produtos inteligentes, esta é uma oportunidade única para construir um sistema de IA de ponta a partir do zero.
Principais Responsabilidades:
 · Arquitetar e implementar pipelines de dados (ETL/ELT) escaláveis e confiáveis para processar dados de diversas fontes e formatos, especialmente arquivos XML e texto estruturado.
· Desenvolver a arquitetura de um sistema de IA conversacional, integrando modelos de linguagem de larga escala (LLMs) via APIs.
· Implementar a lógica para consulta de dados em linguagem natural, conectando as perguntas dos usuários com as bases de dados subjacentes.
· Projetar e gerenciar o armazenamento de dados, escolhendo as tecnologias mais adequadas (Data Lakes, Data Warehouses, Bancos Vetoriais).
· Aplicar técnicas de ML para extrair insights, identificar padrões e detectar anomalias nos dados processados.
 Requisitos Essenciais: 
· Experiência sólida no desenvolvimento de pipelines de dados com ferramentas como Apache Airflow ou equivalentes.
· Experiencia com engine de buscas (Trino ou equivalente).
· Proficiência em Python e seu ecossistema de bibliotecas de dados (Pandas, NumPy, etc.).
· Experiência prática na integração com APIs de LLMs (ex: OpenAI, Google AI, Anthropic).
· Conhecimento em sistemas de armazenamento de dados em nuvem (AWS S3, Redshift, etc.).
· Habilidade de colaborar com times de Produto para alinhar as capacidades de IA com os objetivos de negócio.
· Inglês (Leitura).
Qualificações Desejáveis (Nice-to-have ):
· Experiência prática construindo sistemas RAG (Retrieval-Augmented Generation), utilizando frameworks como LangChain/LangGraph e Bancos de Dados Vetoriais (ex: Pinecone, Weaviate).
· Conhecimento específico no parsing e estruturação de dados de documentos fiscais complexos (NF-e, SPED).
· Experiência com modelos de detecção de anomalias ou análise de séries temporais para identificação de riscos e oportunidades.
· Familiaridade com o ecossistema de NLP da Hugging Face (Transformers) para tarefas de processamento de linguagem natural mais específicas.
· Conhecimento de práticas de MLOps (versionamento, deploy e monitoramento de modelos).
Se você busca uma oportunidade para crescer, aprender e atuar com soluções inovadoras, cadastre seu currículo e venha fazer parte do nosso time