Especialista em Monitoramento de Sistemas
Na RÓDIO TECH, conectamos os melhores profissionais às melhores vagas. Se você é um especialista em monitoramento de sistemas e busca uma oportunidade desafiadora em uma empresa que valoriza o talento e a inovação, este é seu momento! Esta vaga está aberta para um(a) especialista em monitoramento de sistemas com foco em observabilidade, para se juntar ao nosso time de profissionais excepcionais.
Aqui estão algumas das atividades que você realizará:
- Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces;
- Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
- Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
- Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
- Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
- Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
- Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
- Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
- Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
- Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
Para esta posição, estamos procurando por alguém com experiência em:
- Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
- Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
- Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
- Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
- Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
- Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
- Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);
- Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);
- Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);
- Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade;
Se você se identifica com este perfil e busca uma oportunidade desafiadora em uma empresa que valoriza o talento e a inovação, inscreva-se agora mesmo!