Estamos em busca de um profissional capacitado para liderar projetos de melhoria contínua e garantir a confiabilidade dos nossos serviços.
Descrição do cargo
O Especialista SRE com foco em Observabilidade será responsável por consolidar métricas, logs e rastreamentos em soluções robustas, garantindo visibilidade em tempo real, diagnóstico preciso de falhas e resposta eficiente a incidentes.
Sua atuação será decisiva para o aumento da confiabilidade dos serviços, redução de indisponibilidades, melhoria contínua da performance e apoio estratégico às áreas de tecnologia e produto.
A pessoa ideal é colaborativa, analítica, orientada a resultados e com forte senso de dono, sempre alinhada aos valores e à visão da empresa.
Responsabilidades principais:
1. Liderar a implementação e evolução da plataforma de observabilidade;
2. Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
3. Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
4. Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
5. Atoar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
Conhecimentos e habilidades requeridos
O candidato deve ter:
* Experiência sólida como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Dominio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD.
Benefícios
Nossa empresa oferece um ambiente de trabalho dinâmico e desafiador, onde você pode desenvolver suas habilidades e conhecimentos em Observabilidade.
We are looking for a skilled professional to lead continuous improvement projects and ensure the reliability of our services.
This Specialized SRE with focus on Observability will be responsible for consolidating metrics, logs and traces in robust solutions, ensuring real-time visibility, precise fault diagnosis and efficient response to incidents.
Your performance will be decisive for increasing service reliability, reducing downtime, improving performance and providing strategic support to technology and product areas.
The ideal person is collaborative, analytical, result-oriented and has a strong sense of ownership, always aligned with company values and vision.
Main responsibilities:
• Lead the implementation and evolution of the Observability platform;
• Define, standardize and maintain dashboards and alerts for critical organization services;
• Establish and track confidence indicators (SLIs, SLOs), guiding technical decisions based on data;
• Automate alert responses and reduce toil through scripts and integrations between tools;
• Act on incident management: triage, resolution coordination, documentation and continuous improvement;
Required knowledge and skills:
• Solid experience as SRE, Observability Engineer or DevOps with a focus on monitoring;
• Technical mastery of Zabbix, Elastic Stack and Dynatrace in mission-critical environments;
• Strong understanding of distributed system architectures and operational metrics;
• Experience with distributed tracing and log/integration metric integration in CI/CD pipelines;
Benefits:
We offer a dynamic and challenging work environment where you can develop your Observability skills and knowledge.