Descrição do Cargo
Atividades:
1. Colaboração com Líderes e Times:
• Trabalhar em estreita colaboração com os líderes de equipe para entregar soluções seguras, confiáveis, robustas e escaláveis.
2. Implementação de Boas Práticas de SRE:
* • Identificar e aplicar as melhores práticas de SRE (Site Reliability Engineering) para aprimorar a confiabilidade e o desempenho dos sistemas.
* • Promover uma cultura de melhoria contínua e aprendizado dentro da equipe.
3. Entrega Contínua e Automação:
* • Garantir o uso de pipelines e ferramentas de entrega contínua para automatizar totalmente o processo de implantação, testes, entrega e gerenciamento de sistemas de desenvolvimento, QA e produção em diversas plataformas de nuvem.
* • Desenvolver e manter scripts de automação para otimizar operações e reduzir intervenções manuais.
4. Monitoramento e Gerenciamento de Incidentes:
* • Implementar soluções de monitoramento abrangentes para detectar e responder proativamente a problemas do sistema.
* • Assumir a responsabilidade pelo gerenciamento de incidentes, incluindo investigação, análise da causa raiz e implementação de medidas preventivas.
* • Desenvolver e manter planos de resposta a incidentes, garantindo que a equipe esteja preparada para situações de emergência.
5. Otimização e Ajuste de Desempenho:
* • Monitorar continuamente o desempenho dos sistemas e implementar otimizações para aumentar a eficiência e a confiabilidade.
* • Realizar periodicamente ajustes de performance e planejamento de capacidade para garantir que os sistemas possam lidar com o crescimento e a demanda.
6. Inovação e Liderança Técnica:
* • Manter-se atualizado sobre as mais recentes ferramentas, tecnologias e abordagens na área de SRE.
* • Inspirar e liderar a equipe a pensar de forma inovadora, desenvolvendo soluções que mantenham a empresa à frente do mercado.
* • Contribuir para a comunidade de SRE, compartilhando conhecimento e melhores práticas.