Buscamos por profissionais de alto nível para assumir uma função desafiadora.
Nossa equipe está procurando por um(a) Especialista SRE com foco em Observabilidade que possa nos ajudar a melhorar nossa plataforma de observação e promover padrões de qualidade elevados.
A pessoa ideal será responsável por:
1. Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces para garantir a consistência e precisão dos dados.
2. Definir, padronizar e manter painéis e alertas para serviços críticos da organização, assegurando a visualização eficaz das informações-chave.
3. Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados para reduzir riscos e aumentar a eficiência operacional.
4. Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas, otimizando os processos e melhorando a produtividade.
5. Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua para minimizar impactos negativos e garantir a recuperação rápida.
6. Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas, fornecendo insights valiosos para tomadas de decisão informadas.
7. Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações, promovendo uma cultura de inovação e excelência técnica.
8. Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações, capacitando colegas de equipe e gerenciando conhecimento compartilhado.
9. Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas, incorporando avanços tecnológicos e melhorias contínuas no âmbito do monitoramento e vigilância.
10. Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes, contribuindo para a tomada de decisões informadas e direcionadas.