Descrição da Vaga
Estamos buscando um especialista em manutenção e confiabilidade de sistemas para trabalhar na equipe de observação. O ideal é alguém que tenha sólida experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.
Atividades a serem Desenvolvidas:
* Liderar a implementação e evolução da plataforma de observação de desempenho;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de desempenho (KPIs), orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o tempo por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.