Especialista em confiabilidade e monitoramento

Arapiraca

beBeeProfissional

Anunciada dia 19 dezembro

Descrição

**Descrição do Cargo**

Nós estamos procurando por um profissional experiente para ocupar o cargo de Especialista em Confiabilidade e Monitoramento, com foco em Observabilidade.

O candidato ideal é alguém que tenha experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos. Além disso, ele deve ter domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace.

Atividades:

* Liderar a implementação e evolução da plataforma de observabilidade;

* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;

* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados;

* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;

* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;

* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;

* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;

* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;

* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;

* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes;

Requisitos**

* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;

* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;

* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;

* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;

* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);

* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;

* Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);

* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);

* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);

* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade;

Perfil do Candidato**

* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;

* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;

* Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;

* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;

* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;

* Experiência com cloud computing (AWS, Azure, GCP) e orquestração de contêineres (Kubernetes);

* Fluência em automação com linguagens como Python, Shell Script, Go ou similares;

* Excelente comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas;

* Visão sistêmica, senso crítico e iniciativa para liderar projetos de melhoria contínua;

Benefícios**

* Salário competitivo;

* Benefícios de saúde e assistência médica;

* Opportunity de crescimento e desenvolvimento profissional;

* Trabalho remoto;

Outros**

* Se você se identifica com esse perfil e busca uma oportunidade desafiadora em uma empresa que valoriza o talento e a inovação, inscreva-se agora mesmo!

Se candidatar

Criar um alerta

Salvar