Descrição da Vaga
O nosso time está à procura de um(a) especialista em segurança e infraestrutura para se juntar a uma equipe de profissionais excepcionais.
Aqui estão algumas das atividades que você fará:
* Liderar a implementação e evolução da plataforma de observabilidade;
* Definir, padronizar e manter painéis e alertas para serviços críticos da organização;
* Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs);
* Automatizar respostas a alertas e reduzir toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
Para esta vaga, precisamos de alguém que tenha experiência sólida em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.
Habilidades Requeridas
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker).