🎯 Descrição da vaga
Buscamos um(a) Desenvolvedor(a) Full Stack Sênior para atuar na construção de aplicações com IA/LLMs em produção, com foco em RAG (Retrieval-Augmented Generation) e integrações com serviços de inferência (model serving).
A pessoa irá desenvolver soluções ponta a ponta utilizando .NET (C#) no backend, Angular no frontend, Python para rotinas de IA e pipelines, além de SQL Server e bases vetoriais para persistência e busca semântica. O objetivo é entregar produtos robustos, com qualidade, segurança e boa experiência para o usuário.
🛠 Responsabilidades
* Desenvolver funcionalidades full stack com IA: chat corporativo, busca semântica, assistentes e copilotos;
* Implementar e evoluir pipelines de RAG: ingestão, chunking, embeddings, indexação e retrieval
* Integrar aplicações com LLMs via API/endpoint e/ou servidores/plataformas de inferência;
* Construir APIs e serviços em .NET (C#) para integração com LLMs, RAG e sistemas internos
* Implementar UI em Angular (streaming de resposta, histórico, feedback do usuário, filtros e controles)
* Desenvolver rotinas/serviços em Python para ingestão, geração de embeddings e automações
* Trabalhar com SQL Server e bases vetoriais (indexação e busca por similaridade com metadados)
* Implementar tratamento de erros, resiliência (timeouts/retry) e controles operacionais
* Atuar com segurança e governança (autenticação, autorização, trilhas e privacidade/LGPD)
* Contribuir com boas práticas de engenharia (testes, code review, versionamento e CI/CD)
✅ Requisitos obrigatórios
* Experiência sólida como Desenvolvedor(a) Full Stack em produção
* .NET (C#) para APIs/serviços (REST, autenticação/autorização, integrações)
* Angular (componentização, consumo de APIs, estado e performance)
* Python para rotinas de IA/integração (scripts, serviços leves, consumo de APIs)
* SQL Server (modelagem, queries e performance básica)
🔹 Experiência prática com LLMs em produção:
* Consumo via API/endpoint, streaming, controle de contexto e custos
* Noções de validação/guardrails (entrada/saída, políticas e limites)
🔹 Experiência com RAG (Retrieval-Augmented Generation) em projeto real:
* Ingestão, embeddings, indexação e retrieval (com filtros por metadados quando necessário)
🔹 Experiência com base vetorial / busca semântica:
* pgvector, Pinecone, Milvus, Weaviate ou Qdrant (ou equivalente)
🔹 Experiência com inferência/model serving:
* Integração/uso de pelo menos um: vLLM, TGI, Ollama, llama.Cpp, Triton ou endpoint gerenciado
* Noções de latência, concorrência e timeouts
🔹 Memória de longo prazo em aplicações com LLMs (nível sênior):
* Persistência de histórico, preferências e contexto com critérios de retenção e privacidade
* Armazenamento/recuperação em SQL e/ou base vetorial
🔹 Boas práticas de engenharia:
* Git, testes, code review, CI/CD e Docker (quando aplicável)
⭐ Diferenciais:
* MCP (Model Context Protocol): uso/integração de MCP servers para conectar LLMs a ferramentas e dados corporativos
* Experiência com Bamboo (Atlassian) para CI/CD
* Observabilidade avançada (dashboards, tracing, métricas de latência e qualidade)
* Kubernetes e estratégias de autoscaling
* Avaliação avançada de RAG/LLM (testes automatizados, datasets, A/B, quality gates)
* Noções de fine-tuning / LoRA / PEFT (não obrigatório)