Missão:
Buscamos um profissional experiente em engenharia de confiabilidade e monitoramento de sistemas distribuídos. Traremos valor consolidando métricas, logs e rastreamentos em soluções robustas.
* Liderar a implementação e evolução da plataforma de observabilidade.
* Definir, padronizar e manter painéis e alertas para serviços críticos.
* Estabelecer indicadores de confiabilidade (SLIs, SLOs) e orientar decisões técnicas com base em dados.
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas.
* Desenvolver boas práticas de observabilidade nos ciclos de desenvolvimento e operações.
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações.
Perfil acadêmico e habilidades:
Formação em Ciência da Computação, Engenharia ou áreas correlatas; Experiência sólida como SRE, Observability Engineer ou DevOps; Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica; Entendimento de arquitetura de sistemas distribuídos e métricas operacionais; Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
Capacidade de correlacionar dados de observabilidade com impacto no negócio; Experiência com cloud computing e orquestração de contêineres; Fluência em automação com linguagens como Python, Shell Script, Go ou similares; Excelente comunicação, organização e capacidade de trabalho colaborativo.