Missão do Cargo
Como especialista em recuperação e manutenção de sistemas, você fará parte do time de SRE de uma plataforma que disponibiliza serviços de Inteligência Artificial para diversas áreas. Essa plataforma está no núcleo estratégico da empresa e serve como área de plataforma para clientes internos e externos.
O cargo visa projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta. Isso inclui a criação e manutenção de pipelines CI/CD que promovam builds, testes, deploy e rollback seguros.
Responsabilidades
* Criar e manter pipelines CI/CD;
* Implementar e evoluir SLIs/SLOs;
* Instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída;
* Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo;
* Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas;
* Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua;
* Participar do plantão (on-call) rotativo.
Além disso, é importante ter habilidades em Terraform e Kubernetes (GKE) ou Cloud Run, bem como conhecimento em agentes de IA integrados a produtos TOTVS.