Objetivo principal dessa posição é garantir a estabilidade e a disponibilidade dos sistemas, com foco em resiliência e confiabilidade.
Essa responsabilidade inclui manter pipeline de observação atualizado, garantindo que métricas, logs e tracing sejam mantidos em alto nível.
Missão
* Definir SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Ajudar no design e melhoria contínua de pipelines de observabilidade;
* Liderar o processo de resposta a incidentes, conduzir pós-mortem e implementar ações corretivas;
* Colaborar com times de desenvolvimento para garantir resiliência desde o design da aplicação;
* Automatizar tarefas operacionais, escalonamento automático e gestão de capacidade em ambientes em nuvem;
* Participar na construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres;
* Apoiado cultura de excelência operacional, focada em melhoria contínua, previsibilidade e prevenção de falhas;
Nessa função, você trabalhará com ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Também é importante ter experiência em práticas de observabilidade: métricas, logs, tracing e alertas; além disso, conhecimento avançado em automação e IaC são fundamentais.
E preciso ter habilidades em containers e orquestração, bem como boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade.
Requisitos e qualificações
* Experiência em ambientes multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
* Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
* Familiaridade com pipelines de CI/CD;
* Conhecimento em feature flags, lançamentos escuros e blue/green deployments;
Benefícios
Entre os benefícios oferecidos estão participação nos resultados, vale alimentação/refeição iFood, licença maternidade e paternidade estendida, auxílio creche, plano de saúde, plano odontológico e muito mais.