Descrição do Cargo:
* Liderar a implementação e evolução da plataforma de observabilidade consolidando logs métricas e traces.
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização.
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs) orientando decisões técnicas com base em dados.
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas.
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações.
* Conduzir treinamentos técnicos sobre métricas rastreamento e diagnóstico de aplicações.
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas.
Principais Conhecimentos:
* Observabilidade ponta a ponta com Zabbix Elastic Stack e Dynatrace.
* Criação padronização e manutenção de dashboards operacionais executivos e técnicos.
* Implementação e monitoramento de SLIs SLOs e SLAs alinhados a objetivos de negócio.
* Rastreamento distribuído com Dynatrace OpenTelemetry Jaeger ou similares.
* Monitoramento de ambientes em nuvem AWS Azure e conteinerizados Kubernetes Docker.
* Integração com ferramentas de alerta e resposta a incidentes Opsgenie PagerDuty VictorOps.
* Autommao de processos operacionais e scripts para coleta e análise de dados Python Shell PowerShell.
* Participação ativa em war rooms execução de post-mortems e condução de RCA Root Cause Analysis.
* Criação e manutenção de documentação operacional runbooks playbooks checklists.
* Colaboração com times de desenvolvimento infraestrutura e produto para antecipação de riscos e padronização de visibilidade.