Descrição do Cargo
O Especialista SRE trabalhará em uma equipe de alto desempenho, desenvolvendo soluções avançadas para Inteligência Artificial e integrando agentes IA a produtos.
A aplicação é fundamental no núcleo estratégico da empresa e serve diversas áreas internas e externas.
* Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade.
* Automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
* Criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros.
* Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana e rastreabilidade distribuída.
* Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.
* Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
* Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
* Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.