Buscamos um(a) Especialista em Confiabilidade e Observabilidade
Estamos à procura de uma pessoa talentosa para liderar a implementação e evolução da nossa plataforma de observabilidade, garantindo visibilidade em tempo real e respostas eficientes a incidentes. A perfeição é o nosso objetivo e esperamos alguém que compartilhe essa visão.
O ideal é alguém que tenha sólida experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos. Além disso, espera-se que tenha domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace, e com profundo conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas.
Responsabilidades:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Consolidar métricas, logs e rastreamentos em soluções robustas;
* Definir, padronizar e manter painéis e alertas para serviços críticos;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs) e orientar decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas.
Requisitos:
* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
* Fortemente habilidoso em arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negócio.
Essa oportunidade oferece um ambiente desafiador e gratificante onde você pode aplicar suas habilidades e conhecimentos para melhorar a confiabilidade e observabilidade das nossas plataformas.