Estamos buscando um especialista em manutenção de infraestrutura para garantir a estabilidade e performance dos nossos ambientes em nuvem.
Missão do Cargo
Como parte da nossa estrutura de engenharia de confiabilidade, sua missão será assegurar que nossos sistemas estejam sempre disponíveis e performáticos.
Responsabilidades e Atribuições
* Definir e acompanhar indicadores de confiabilidade por produto e ambiente;
* Atuar no design e melhoria contínua de pipelines de observabilidade;
* Liderar o processo de resposta a incidentes, conduzir pós-mortem e promover ações corretivas;
* Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Participar da construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres;
* Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e Qualificações
1. Experiência com ambientes multi-cloud e suas ferramentas de gestão e automação;
2. Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Dominio em práticas de observabilidade: métricas, logs, tracing e alertas;
4. Conhecimento avançado em automação e IaC;
5. Familiaridade com pipelines de CI/CD;
6. Experiência com containers e orquestração;
7. Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade