Especialista em engenharia de confiabilidade

Garibaldi

beBeeObservabilidade

Anunciada dia 19 dezembro

Descrição

Descrição do Vaga

A RÓDIO TECH procura por profissionais excepcionais para ocupar o cargo de Especialista em Observabilidade. O candidato ideal é alguém com sólida experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.

Um(a) profissional com domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace, e com profundo conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas.

O candidato deve atuar de forma estratégica, propor padrões técnicos, elevar a maturidade dos nossos sistemas e disseminar boas práticas de visibilidade, performance e resiliência em toda a organização.

-----------------------------------

Atividades da Contratação

Como Especialista em Observabilidade, essa pessoa será protagonista na evolução da plataforma de observabilidade da Empresa.

* Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces.
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização.
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados.
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas.
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações.
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações.
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas.
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
-----------------------------------

Conhecimentos Requisitos

Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace.

Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos.

Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio.

Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares.

Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker).

Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps.

Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell).

Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis).

Criação e manutenção de documentação operacional (runbooks, playbooks, checklists).

Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade.

],

Se candidatar

Criar um alerta

Salvar