Observabilidade e Confiabilidade em Nuvem
Somos uma empresa que busca um Especialista em Observabilidade e Confiabilidade para trabalhar com nossos sistemas em nuvem. Esperamos encontrar alguém com experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.
Responsabilidades:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs) orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
Requisitos:
* Experiência sólida como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negócio;
Desenvolvimento Profissional:
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiador auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
O candidato ideal é colaborativo, analítico, orientado a resultados e com forte senso de dono, sempre alinhado à visão da empresa. Será um prazer recebê-lo em nossa equipe!