Missão do Cargo:
Assegurar a Disponibilidade e Confiabilidade de Sistemas
Como parte da estrutura de Cloud e SRE, sua missão será garantir que nossos sistemas estejam sempre disponíveis, performáticos e seguros.
Responsabilidades e Atribuições:
* Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
* Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
* Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.