Descrição da Vaga
Buscamos um especialista em resiliência e manutenção de sistemas para se juntar a nossa equipe.
O candidato ideal é colaborativo, analítico, orientado a resultados e com forte senso de dono, sempre alinhado aos valores e à visão da empresa.
* Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces.
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização.
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados.
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
Principais habilidades:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace.
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos.
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio.