Procuramos um profissional experimentado para atuar como Especialista em Confiabilidade e Monitoramento de Sistemas, responsável por garantir a disponibilidade e desempenho dos serviços.
Se você é uma pessoa detalhada, analítica e orientada a resultados, com habilidades técnicas em ferramentas como Zabbix, Elastic Stack e Dynatrace, está convidado(a) a se candidatar ao nosso time.
Como Especialista em Confiabilidade e Monitoramento de Sistemas, você será o responsável por liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces. Definirá, padronizará e manterá painéis e alertas para serviços críticos da organização. Estabelecerá e acompanhará indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados. Automatizará respostas a alertas e reduzirá o toil por meio de scripts e integrações entre ferramentas. Atuará na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua. Apoiará squads de produto e infraestrutura na análise de performance e comportamento dos sistemas. Desenvolverá e disseminará boas práticas de observabilidade nos ciclos de desenvolvimento e operações. Conduzirá treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações. Evoluirá continuamente o processo de detecção proativa e resposta rápida a falhas. Apoiará auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
Principais conhecimentos:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace.
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos.
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio.
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares.
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker).
* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps.
* Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell).
* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis).
* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists).
* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade.
Perfil acadêmico e habilidades: * Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas.* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento.* Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica.* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais.* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD.* Capacidade de correlacionar dados de observabilidade com impacto no negócio.* Experiência com cloud computing (AWS, Azure, GCP) e orquestração de contêineres (Kubernetes).* Fluência em automação com linguagens como Python, Shell Script, Go ou similares.* Excelente comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas.* Visão sistêmica, senso crítico e iniciativa para liderar projetos de melhoria contínua.
Modelo de contratação:
* Contrato: Pessoa Jurídica (PJ)
Modelo de atuação:
* Modelo: 100% Remoto