Garantir a confiabilidade, estabilidade e observabilidade dos sistemas, atuando de forma proativa para prevenir falhas e responder rapidamente a incidentes.
Descrição do cargo:
Funções e Responsabilidades
A posição visa garantir que os sistemas estejam sempre disponíveis e funcionem corretamente, mantendo a integridade e a segurança dos dados.
1. Liderar a arquitetura de observabilidade no Brasil em coordenação com as equipes regionais e globais;
2. Implementar e manter ferramentas de monitoramento, rastreamento distribuído e análise de logs, com foco em Elastic;
3. Trabalhar em parceria com equipes de SRE, DevOps e desenvolvimento para garantir que os sistemas sejam projetados com observabilidade desde o início;
4. Estabelecer e acompanhar métricas e indicadores-chave (SLIs, SLOs, SLAs) para os sistemas e serviços da empresa;
5. Conduzir análises de desempenho e identificar oportunidades de melhoria tanto nos sistemas e serviços da empresa quanto na arquitetura de observabilidade;
6. Promover a cultura de "monitoramento como código" e automação de alertas;
7. Liderar iniciativas de capacitação interna sobre boas práticas de observabilidade;
8. Liderar as equipes de monitoração e SREs, promovendo boas práticas de confiabilidade, observabilidade e automação;
9. Supervisionar a resposta a incidentes críticos e apoiar nas análises de causa raiz;
10. Desenvolver e manter documentação técnica e planos de resposta a incidentes (Knowledge Base).