Procuramos um profissional de alta qualidade para liderar a evolução da plataforma de observabilidade da nossa empresa.
Como especialista em observabilidade, você será responsável por consolidar métricas, logs e rastreamentos em soluções robustas, garantindo visibilidade em tempo real, diagnóstico preciso de falhas e resposta eficiente a incidentes.
Aqui estão algumas das principais atividades que você realizará:
* Liderar a implementação e evolução da plataforma de observabilidade
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes
Além disso, estamos procurando por um profissional com as seguintes habilidades e qualificações:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker)
* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps
* Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell)
* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis)
* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists)
* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade
Se você é uma pessoa que busca desafios criativos e trabalha bem em equipe, esta é uma oportunidade perfeita para você!