Observabilidade e Engenharia de Confiabilidade
Estamos à procura de um especialista em engenharia de confiabilidade que possa liderar a evolução da plataforma de observabilidade. Essa pessoa será responsável por garantir a visibilidade em tempo real, o diagnóstico preciso de falhas e a resposta eficiente a incidentes.
Funções principais:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir e padronizar painéis e alertas para serviços críticos;
* Estabelecer indicadores de confiabilidade (SLIs, SLOs) e orientar decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
Requisitos:
* Domínio técnico em Zabbix, Elastic Stack e Dynatrace;
* Experiência sólida como SRE ou Observability Engineer;
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negócio.
Conhecimentos desejáveis:
* Certificações em observabilidade e confiabilidade;
* Conhecimento em Prometheus, Grafana, Loki e OpenTelemetry;
* Experiência com Chaos Engineering e validação de resiliência;
* Participação em incidentes críticos com liderança técnica na resposta.