Vaga para Especialista em Confiabilidade e Monitoramento
A Ródio Tech está à procura de um(a) profissional experiente para ocupar o cargo de Especialista em Confiabilidade e Monitoramento.
O candidato ideal deve ter sólida experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos. Além disso, é necessário ter domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace, bem como conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas.
Deve ser capaz de atuar de forma estratégica, propondo padrões técnicos, elevando a maturidade dos sistemas e disseminando boas práticas de visibilidade, performance e resiliência em toda a organização. O candidato ideal é colaborativo, analítico, orientado a resultados e com forte senso de dono, sempre alinhado aos valores e à visão da empresa.
A atividade principal do especialista será liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces. Além disso, definirá painéis e alertas para serviços críticos da organização, estabelecerá indicadores de confiabilidade (SLIs, SLOs), orientará decisões técnicas com base em dados e automatizará respostas a alertas e reduzirá o toil por meio de scripts e integrações entre ferramentas.
O especialista também atuará na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua. Além disso, apoiará squads de produto e infraestrutura na análise de performance e comportamento dos sistemas, desenvolverá e disseminará boas práticas de observabilidade nos ciclos de desenvolvimento e operações e conduzirá treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações.
Ao trabalhar conosco, você terá a oportunidade de contribuir para uma equipe comprometida com a inovação e a excelência, trabalhando em projetos desafiadores e significativos. Além disso, terá acesso a oportunidades de crescimento e desenvolvimento profissional, além de um ambiente de trabalho dinâmico e estimulante.
Principais responsabilidades:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir painéis e alertas para serviços críticos da organização;
* Establecer indicadores de confiabilidade (SLIs, SLOs) e orientar decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade;
* Conduzir treinamentos técnicos;
Requisitos mínimos:
* Sólida experiência em engenharia de confiabilidade;
* Monitoramento de ambientes distribuídos;
* Gestão de incidentes críticos;
* Domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace;
* Conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas;
* Colaboratividade, análise, orientação a resultados e forte senso de dono;
* Certificações em observabilidade e confiabilidade (Dynatrace Associate, Zabbix Certified, Elastic Observability, SRE Foundation).
Nível de experiência: Experiência comprovada em cargos semelhantes.
Idioma:** pt
Localização: 100% Remoto