Descrição da vaga Buscamos um(a) Desenvolvedor(a) Full Stack Sênior para atuar na construção de aplicações com IA/LLMs em produção, com foco em RAG (Retrieval-Augmented Generation) e integrações com serviços de inferência (model serving).A pessoa irá desenvolver soluções ponta a ponta utilizando .NET (C#) no backend, Angular no frontend, Python para rotinas de IA e pipelines, além de SQL Server e bases vetoriais para persistência e busca semântica. O objetivo é entregar produtos robustos, com qualidade, segurança e boa experiência para o usuário.Responsabilidades Desenvolver funcionalidades full stack com IA: chat corporativo, busca semântica, assistentes e copilotos; Implementar e evoluir pipelines de RAG: ingestão, chunking, embeddings, indexação e retrieval Integrar aplicações com LLMs via API/endpoint e/ou servidores/plataformas de inferência; Construir APIs e serviços em .NET (C#) para integração com LLMs, RAG e sistemas internos Implementar UI em Angular (streaming de resposta, histórico, feedback do usuário, filtros e controles) Desenvolver rotinas/serviços em Python para ingestão, geração de embeddings e automações Trabalhar com SQL Server e bases vetoriais (indexação e busca por similaridade com metadados) Implementar tratamento de erros, resiliência (timeouts/retry) e controles operacionais Atuar com segurança e governança (autenticação, autorização, trilhas e privacidade/LGPD) Contribuir com boas práticas de engenharia (testes, code review, versionamento e CI/CD) Requisitos obrigatórios Experiência sólida como Desenvolvedor(a) Full Stack em produção .NET (C#) para APIs/serviços (REST, autenticação/autorização, integrações) Angular (componentização, consumo de APIs, estado e performance) Python para rotinas de IA/integração (scripts, serviços leves, consumo de APIs) SQL Server (modelagem, queries e performance básica)Experiência prática com LLMs em produção: Consumo via API/endpoint, streaming, controle de contexto e custos Noções de validação/guardrails (entrada/saída, políticas e limites)Experiência com RAG (Retrieval-Augmented Generation) em projeto real: Ingestão, embeddings, indexação e retrieval (com filtros por metadados quando necessário)Experiência com base vetorial / busca semântica: pgvector, Pinecone, Milvus, Weaviate ou Qdrant (ou equivalente)Experiência com inferência/model serving: Integração/uso de pelo menos um: vLLM, TGI, Ollama, llama.cpp, Triton ou endpoint gerenciado Noções de latência, concorrência e timeoutsMemória de longo prazo em aplicações com LLMs (nível sênior): Persistência de histórico, preferências e contexto com critérios de retenção e privacidade Armazenamento/recuperação em SQL e/ou base vetorialBoas práticas de engenharia: Git, testes, code review, CI/CD e Docker (quando aplicável) Diferenciais: MCP (Model Context Protocol): uso/integração de MCP servers para conectar LLMs a ferramentas e dados corporativos Experiência com Bamboo (Atlassian) para CI/CD Observabilidade avançada (dashboards, tracing, métricas de latência e qualidade) Kubernetes e estratégias de autoscaling Avaliação avançada de RAG/LLM (testes automatizados, datasets, A/B, quality gates) Noções de fine-tuning / LoRA / PEFT (não obrigatório)