Especialista de Observabilidade
Estamos à procura de uma profissional com habilidades em Observabilidade para liderar a evolução da nossa plataforma de observação. A pessoa certa é aquela que tem experiência sólida em engenharia de confiabilidade, monitoramento e gestão de incidentes críticos.
Abaixo estão as principais atividades a serem desenvolvidas:
• Liderar a implementação e evolução da plataforma de observação, consolidando logs, métricas e rastreamentos;
• Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
• Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
• Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
• Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
• Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
• Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
• Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
• Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
• Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
Principais conhecimentos:
• Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
• Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
• Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
• Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
• Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
• Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
• Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);
• Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);
• Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);
• Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade;