Descrição do Cargo
O cargo de Especialista em Observabilidade e Confiabilidade é uma oportunidade para alguém se juntar a nossa equipe de profissionais altamente qualificados. Nossa empresa está procurando por alguém com sólida experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.
A pessoa ideal é um profissional colaborativo, analítico, orientado a resultados e com forte senso de dono. Ele deve ter domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace, e profundo conhecimento em práticas modernas de observabilidade, rastreamento distribuído e automação de alertas.
Nossa busca pelo candidato ideal inclui:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;
Habilidades e Qualificações Requeridas
A pessoa ideal deve ter as seguintes habilidades e qualificações:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
* Autoramação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);
* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);
* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);
* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade;
Vantagens do Cargo
O nosso ambiente de trabalho oferece:
* Opportunidades de crescimento e desenvolvimento profissional;
* Equipe altamente qualificada e experiente;
* Trabalho remoto 100%;
Sentimos muito interesse em conhecer mais sobre você!
Para saber mais sobre o cargo e as oportunidades de carreira na nossa empresa, entre em contato conosco.
Título do Cargo: Especialista em Observabilidade e Confiabilidade
Palavra-chave: Observabilidade