A RÓDIO TECH procura por um profissional para ocupar a função de Especialista em Confiabilidade e Observabilidade.
Esta posição visa atuar como líder da plataforma de observabilidade da empresa, consolidando métricas, logs e rastreamentos em soluções robustas, garantindo visibilidade em tempo real, diagnóstico preciso de falhas e resposta eficiente a incidentes.
O candidato ideal deve ter experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento e domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica.
Também é necessário ter forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais, vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD e capacidade de correlacionar dados de observabilidade com impacto no negócio.
Além disso, o candidato deve ter fluência em automação com linguagens como Python, Shell Script, Go ou similares e excelentes habilidades de comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas.
Por fim, espera-se que o candidato tenha senso crítico e iniciativa para liderar projetos de melhoria contínua.
Atividades principais:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
Requisitos de perfil acadêmico e habilidades:
* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Dominio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missao critica;
* Forte entendimento de arquitetura de sistemas distribuidos e metricas operacionais;
* Vivencia com rastreamento distribuido e integracao de logs/metricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negocio;
* Fluencia em automacao com linguagens como Python, Shell Script, Go ou similares;
* Excelente comunicacao, organizacao e capacidade de trabalho colaborativo com multiplos areas;
* Visao sistematica, senso critico e iniciativa para liderar projetos de melhoria contigua.
Qualificações desejáveis:
* Certificacoes em observabilidade e confiabilidade: Dynatrace Associate, Zabbix Certified, Elastic Observability, SRE Foundation;
* Conhecimento em Prometheus, Grafana, Loki e OpenTelemetry;
* Experiencia com Chaos Engineering e validacao de resiliencia;
* Participacao em incidentes criticos com lideranca tecnica na resposta;
* Vivencia com arquitetura de microservicos e desafios de visibilidade em ambientes distribuidos;
* Experiencia com automatizacao de runbooks e fluxos de resposta a incidentes;
* Familiaridade com praticas de FinOps e eficiencia operacional em observabilidade;
* Participacao em comunidades tecnicas de SRE, DevOps e observabilidade;
* Contribuicao para ferramentas ou boas praticas open source;
* Inglês técnico para leitura, escrita e participação em fóruns internacionais.