Se você é um profissional proativo e orientado a resultados, com habilidades em engenharia de confiabilidade e monitoramento de sistemas distribuídos, estamos à procura de alguém para liderar projetos de melhoria contínua em observabilidade. Nossa empresa busca um especialista SRE com expertise em Zabbix, Elastic Stack e Dynatrace para desenvolver soluções robustas e garantir visibilidade em tempo real nos nossos sistemas. O candidato ideal será responsável por implementar e manter painéis e alertas para serviços críticos, além de estabelecer indicadores de confiabilidade e automatizar respostas a alertas. A experiência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD também é necessária. Além disso, ser capaz de correlacionar dados de observabilidade com impacto no negócio é fundamental para esse papel.
**Descrição do Cargo:**
O cargo visa atender às necessidades da nossa equipe de tecnologia, incentivando práticas de engenharia de confiabilidade e monitoramento de sistemas distribuídos. Será uma oportunidade para os interessados em contribuir para o crescimento da organização, trabalhando em conjunto com equipes de desenvolvimento e infraestrutura para antecipação de riscos e padronização de visibilidade.
**Responsabilidades e Habilidades:**
- Implementar e manter painéis e alertas para serviços críticos;
- Estabelecer indicadores de confiabilidade (SLIs, SLOs) e orientar decisões técnicas com base em dados;
- Automatizar respostas a alertas e reduzir toil por meio de scripts e integrações entre ferramentas;
- Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
- Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
- Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
- Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
- Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
- Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
- Conhecimento em Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
- Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
- Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
- Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
- Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
- Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
- Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell).