 
        
        Missão do cargo: Será parte do time de Sistemas e Redes responsável por garantir a confiabilidade e escalabilidade da plataforma que oferece serviços de Inteligência Artificial para diversas áreas.
Ou seja, trabalhará em uma equipe focada na entrega contínua de soluções inovadoras, colaborando com especialistas em tecnologia e negócios.
A missão será projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, automatizar infraestrutura com Terraform, gerenciar ambientes em Kubernetes (GKE) ou Cloud Run e criar pipelines CI/CD seguros.
 * Responsabilidades:
 * Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI;
 * Automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run;
 * Criar e manter pipelines CI/CD seguros;
 * Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana e rastreabilidade distribuída;
 * Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais;
 * Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas;
 * Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua;
 * Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Requisitos:
 * Experiência profissional: Prática como SRE/DevOps em ambientes cloud;
 * Habilidades técnicas: Domínio de Linux, redes, containers (Docker) e Kubernetes;
 * Tecnologias: Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation); Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares;
 * Comunicação: Inglês técnico para leitura e escrita;