Missão: esta pessoa fará parte do time de manutenção de sistemas e serviços, garantindo a integridade e disponibilidade das aplicações. A plataforma é uma ferramenta essencial para diversas áreas da empresa.
O que você vai fazer:
desenvolver e implementar soluções de alta disponibilidade para micro-serviços em Python/FastAPI;
automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run;
criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros;
implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana e rastreabilidade distribuída;
monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais;
conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas;
capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua;
participar do plantão rotativo, mantendo a plataforma com o máximo de disponibilidade possível;
O que esperamos de você:
experiência prática como SRE/DevOps em ambientes cloud;
domínio de Linux, redes, containers (Docker) e Kubernetes;
proficiência em Infrastructure as Code (Terraform);
rotinas de CI/CD com GitHub Actions;
instrumentação e alerta com Prometheus, Grafana;
programação/scripting em Python;
conhecimento de Postgres, Redis e tuning de performance;
experiência em gestão de incidentes e elaboração de post-mortems;
inglês técnico para leitura e escrita;
Diferencial:
conhecimento em infraestrutura em nuvem e conteinerização;
experiência com Cloud Run e Knative;
noções de cost optimisation em FinOps;
contribuições open-source em projetos Cloud Native;
experiência com ferramentas de monitoramento e observabilidade;
familiaridade com pipelines de CI/CD;
conhecimento em infraestrutura como código (IaC);
experiência com agentes de IA;
conhecimento em protocolos de rede;
experiência com proxy reverso e balanceamento de carga