?? Descrição da vaga
Buscamos um(a) Desenvolvedor(a) Full Stack Sênior para atuar na construção de aplicações com IA/LLMs em produção, com foco em RAG (Retrieval-Augmented Generation) e integrações com serviços de inferência (model serving).
A pessoa irá desenvolver soluções ponta a ponta utilizando .NET (C#) no backend, Angular no frontend, Python para rotinas de IA e pipelines, além de SQL Server e bases vetoriais para persistência e busca semântica. O objetivo é entregar produtos robustos, com qualidade, segurança e boa experiência para o usuário.
?? Responsabilidades
Desenvolver funcionalidades full stack com IA: chat corporativo, busca semântica, assistentes e copilotos;
Implementar e evoluir pipelines de RAG: ingestão, chunking, embeddings, indexação e retrieval
Integrar aplicações com LLMs via API/endpoint e/ou servidores/plataformas de inferência;
Construir APIs e serviços em .NET (C#) para integração com LLMs, RAG e sistemas internos
Implementar UI em Angular (streaming de resposta, histórico, feedback do usuário, filtros e controles)
Desenvolver rotinas/serviços em Python para ingestão, geração de embeddings e automações
Trabalhar com SQL Server e bases vetoriais (indexação e busca por similaridade com metadados)
Implementar tratamento de erros, resiliência (timeouts/retry) e controles operacionais
Atuar com segurança e governança (autenticação, autorização, trilhas e privacidade/LGPD)
Contribuir com boas práticas de engenharia (testes, code review, versionamento e CI/CD)
? Requisitos obrigatórios
Experiência sólida como Desenvolvedor(a) Full Stack em produção
.NET (C#) para APIs/serviços (REST, autenticação/autorização, integrações)
Angular (componentização, consumo de APIs, estado e performance)
Python para rotinas de IA/integração (scripts, serviços leves, consumo de APIs)
SQL Server (modelagem, queries e performance básica)
?? Experiência prática com LLMs em produção:
Consumo via API/endpoint, streaming, controle de contexto e custos
Noções de validação/guardrails (entrada/saída, políticas e limites)
?? Experiência com RAG (Retrieval-Augmented Generation) em projeto real:
Ingestão, embeddings, indexação e retrieval (com filtros por metadados quando necessário)
?? Experiência com base vetorial / busca semântica:
pgvector, Pinecone, Milvus, Weaviate ou Qdrant (ou equivalente)
?? Experiência com inferência/model serving:
Integração/uso de pelo menos um: vLLM, TGI, Ollama, llama.cpp, Triton ou endpoint gerenciado
Noções de latência, concorrência e timeouts
?? Memória de longo prazo em aplicações com LLMs (nível sênior):
Persistência de histórico, preferências e contexto com critérios de retenção e privacidade
Armazenamento/recuperação em SQL e/ou base vetorial
?? Boas práticas de engenharia:
Git, testes, code review, CI/CD e Docker (quando aplicável)
? Diferenciais:
MCP (Model Context Protocol): uso/integração de MCP servers para conectar LLMs a ferramentas e dados corporativos
Experiência com Bamboo (Atlassian) para CI/CD
Observabilidade avançada (dashboards, tracing, métricas de latência e qualidade)
Kubernetes e estratégias de autoscaling
Avaliação avançada de RAG/LLM (testes automatizados, datasets, A/B, quality gates)
Noções de fine-tuning / LoRA / PEFT (não obrigatório)