Reforçar a confiabilidade e estabilidade em ambientes SaaS
Missão do Cargo
Sua missão será garantir que os sistemas estejam disponíveis, performáticos e seguros. Você será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais.
* Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
* Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
* Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
O papel exige experiência em ambientes multi-cloud e conhecimento avançado em automação e IaC.
Experiência Requerida
* Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
* Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
* Dominio em práticas de observabilidade: métricas, logs, tracing e alertas;
* Conhecimento avançado em automação e IaC;
* Familiaridade com pipelines de CI/CD;
* Experiência com containers e orquestração;
* Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
* Mentalidade 'you build it, you run it', com foco em confiabilidade e colaboração entre times.
Benefícios
* Participação nos resultados;
* Vale alimentação/refeição iFood;