Descrição da Vaga
O nosso time é responsável por garantir a saúde, estabilidade e observabilidade dos sistemas, atuando de forma proativa para prevenir falhas e responder rapidamente a incidentes.
Garantir que nossos sistemas críticos sejam resilientes, escaláveis e monitoráveis de forma proativa. Implementar e manter ferramentas de monitoramento, rastreamento distribuído e análise de logs, com foco em Elastic. Trabalhar em parceria com equipes de SRE, DevOps e desenvolvimento para garantir que os sistemas sejam projetados com observabilidade desde o início.
Estabelecer e acompanhar métricas e indicadores-chave (SLIs, SLOs, SLAs) para os sistemas e serviços da empresa. Conduzir análises de desempenho e identificar oportunidades de melhoria tanto nos sistemas e serviços da empresa quanto na arquitetura de observabilidade. Promover a cultura de 'monitoramento como código' e automação de alertas.