Buscamos um profissional para liderar a implementação e evolução da plataforma de observabilidade. Essa pessoa será responsável por consolidar métricas, logs e rastreamentos em soluções robustas.
Responsabilidades:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Consolidar métricas, logs e rastreamentos em soluções robustas;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
Experiência Requerida:
* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Dominio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missao critica;
* Forte entendimento de arquitetura de sistemas distribuidos e métricas operacionais;
* Vivencia com rastreamento distribuido e integracao de logs/ metricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negocio;
* Experiencia com cloud computing (AWS, Azure, GCP) e orquestracao de containeres (Kubernetes);
* Fluencia em automacao com linguagens como Python, Shell Script, Go ou similares;
* Excelente comunicacao, organizacao e capacidade de trabalho colaborativo com multiplos areas;
* Vision sistematica, senso critico e iniciativa para liderar projetos de melhoria contínua;
Local de Trabalho Remoto