Observador de Sinais de Alerta
Nossa equipe está à procura de um profissional altamente qualificado para desempenhar o papel de Observador de Sinais de Alerta. Nesta posição, você será responsável por garantir a visibilidade em tempo real dos nossos sistemas e aplicativos, permitindo que possamos tomar decisões informadas e eficazes.
**Responsabilidades:**
1. Consolidar logs, métricas e rastreamentos em soluções robustas;
2. Definir e padronizar painéis e alertas para serviços críticos da organização;
3. Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
4. Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
5. Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
6. Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
7. Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
8. Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
9. Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
10. Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
**Habilidades e Qualificações Desejáveis:**
- Observabilidade ponta a ponta com Zabbix, Elastic Stack e Dynatrace;
- Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
- Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
- Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
- Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
- Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
- Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);
- Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);
- Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);
- Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade;
**Vantagens:**
- Oportunidade de trabalhar em uma empresa inovadora e dinâmica;
- Ambiente de trabalho colaborativo e apoiador;
- Possibilidade de crescimento e desenvolvimento profissional;
**Conhecimentos:**
- Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
- Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
- Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
- Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
- Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
- Capacidade de correlacionar dados de observabilidade com impacto no negócio;
- Experiência com cloud computing (AWS, Azure, GCP) e orquestração de contêineres (Kubernetes);
- Fluência em automação com linguagens como Python, Shell Script, Go ou similares;
- Excelente comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas;
- Visão sistêmica, senso crítico e iniciativa para liderar projetos de melhoria contínua;