Especialista em Confiabilidade e Monitoramento de Sistemas
A empresa está procurando por um especialista com habilidades avançadas em engenharia de confiabilidade, monitoramento de sistemas distribuídos e gestão de incidentes críticos. O ideal é alguém que atue de forma estratégica, proponha padrões técnicos, eleve a maturidade dos sistemas e dissemine boas práticas de visibilidade, performance e resiliência em toda a organização.
Funções e Responsabilidades
1. Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e rastreamentos em soluções robustas.
2. Definir, padronizar e manter painéis e alertas para serviços críticos da organização.
3. Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados.
4. Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
5. Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
Requisitos e Qualificações
* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas.
* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento.
* Dominio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica.
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais.
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD.
Benefícios
O candidato ideal receberá uma remuneração competitiva e oportunidades de crescimento profissional em uma equipe dinâmica e inovadora. Além disso, terá acesso a recursos de treinamento e desenvolvimento continuo.