Estamos procurando por um profissional habilidoso para garantir a estabilidade e performance dos nossos ambientes de nuvem.
A missão do cargo é assegurar que os sistemas estejam sempre disponíveis, performáticos e seguros.
Responsabilidades:
* Definição de SLIs/SLOs: Desenvolver e implementar indicadores de confiabilidade para produtos e ambientes;
* Pipelines de Observabilidade: Designar e melhorar continuamente pipelines de observabilidade (tracing, métricas e logs);
* Incident Response: Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
* Resiliência em Ambientes de Nuvem: Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatização de Tarefas: Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
Requisitos e Qualificações:
1. Experiência em Ambientes Multi-Nuvem: Experiência com ambientes multi-nuvem (OCI e AWS) e suas ferramentas de gestão e automação;
2. SRE ou DevOps: Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Observabilidade: Domínio em práticas de observabilidade: métricas, logs, tracing e alertas;
4. Automacao e IaC: Conhecimento avançado em automação e IaC;
5. Cultura de Confiança: Mentalidade