Buscamos um profissional para ocupar o cargo de Especialista em Segurança e Recuperação do Sistema (SRE), com foco em Observabilidade.
O candidato ideal terá responsabilidades amplas relacionadas ao gerenciamento dos sistemas, incluindo a implementação e manutenção de práticas de observabilidade, garantindo que os serviços sejam confiáveis e eficientes.
Responsabilidades:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir, padronizar e manter painéis e alertas para serviços críticos;
* Estabelecer e acompanhar indicadores de confiabilidade;
* Automatizar respostas a alertas e reduzir toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
Requisitos Essenciais:
* Experiência sólida como SRE ou Observability Engineer;
* Domínio técnico de Zabbix, Elastic Stack e Dynatrace;
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negócio.
Principais Conhecimentos:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack e Dynatrace;
* Criação, padronização e manutenção de dashboards operacionais;
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
Modelo de Contratação:
Contrato: Pessoa Jurídica
Localização:
100% Remoto