Missão do cargo: Esta pessoa fará parte do time de SRE de uma plataforma que disponibiliza serviços de Inteligência Artificial para diversas áreas, bem como possibilita o desenvolvimento de soluções de agentes de IA integrados a produtos TOTVS. Esta aplicação está no núcleo estratégico da TOTVS, e serve diversas áreas da companhia como uma área de plataforma, para clientes internos e externos. O QUE VOCÊ VAI FAZER: Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta. Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda. Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros. Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída. Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo. Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas. Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua. Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível. O QUE ESPERAMOS DE VOCÊ: Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure). Domínio de Linux, redes, containers (Docker) e Kubernetes. Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation). Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares. Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager. Programação/scripting em Python e Bash (Go é bônus). Conhecimento de Postgres, Redis e tuning de performance. Experiência em gestão de incidentes e elaboração de post-mortems. Inglês técnico para leitura e escrita. DIFERENCIAL: Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless. Experiência com Cloud Run, Knative ou FaaS. Noções de cost optimisation em FinOps. Contribuições open-source em projetos Cloud Native. Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana. Familiaridade com pipelines de CI/CD. Conhecimento em infraestrutura como código (IaC), como Terraform. Experiência com agentes de IA, LLMs e RAG. Conhecimento em protocolos de rede, como TCP/IP e HTTP. Experiência com proxy reverso e balanceamento de carga.