Nós estamos procurando por um especialista em engenharia de confiabilidade para liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces.
O profissional deve ter domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace, além de um profundo conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas.
Atividades incluem:
* Liderar projetos de monitoramento e gestão de incidentes críticos;
* Definir e manter indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;