Função:
Atividades: Trabalhar em estreita colaboração com os líderes de equipe para entregar soluções seguras, confiáveis, robustas e escaláveis. Promover a colaboração entre as equipes de Engenharia de Plataformas e de Tecnologia, garantindo alinhamento nas melhores práticas e objetivos.
Implementação de Boas Práticas de SRE:
Identificar e aplicar as melhores práticas de SRE (Site Reliability Engineering) para aprimorar a confiabilidade e o desempenho dos sistemas. Promover uma cultura de melhoria contínua e aprendizado dentro da equipe.
Entrega Contínua e Automação:
Garantir o uso de pipelines e ferramentas de entrega contínua para automatizar totalmente o processo de implantação, testes, entrega e gerenciamento de sistemas de desenvolvimento, QA e produção em diversas plataformas de nuvem. Desenvolver e manter scripts de automação para otimizar operações e reduzir intervenções manuais.
Monitoramento e Gerenciamento de Incidentes:
Implementar soluções de monitoramento abrangentes para detectar e responder proativamente a problemas do sistema. Assumir a responsabilidade pelo gerenciamento de incidentes, incluindo investigação, análise da causa raiz e implementação de medidas preventivas.
Otimização e Ajuste de Desempenho:
Monitorar continuamente o desempenho dos sistemas e implementar otimizações para aumentar a eficiência e a confiabilidade. Realizar periodicamente ajustes de performance e planejamento de capacidade para garantir que os sistemas possam lidar com o crescimento e a demanda.
Inovação e Liderança Técnica:
Manter-se atualizado sobre as mais recentes ferramentas, tecnologias e abordagens na área de SRE. Inspirar e liderar a equipe a pensar de forma inovadora, desenvolvendo soluções que mantenham a empresa à frente do mercado.
Requisitos da vaga:
Administração de Sistemas UNIX/Linux: Forte experiência em administração de sistemas UNIX/Linux.
Orquestração de Contêineres: Conhecimento avançado em tecnologias de orquestração de contêineres, com ênfase em Kubernetes.
Integração Contínua e Testes Automatizados: Proficiência em práticas de integração contínua e testes automatizados.
Plataformas de CI: Experiência com uma ou mais plataformas populares de CI (ex.: Jenkins, Bamboo, Travis, Brigade).
Gerenciador de Pacotes Helm: Proficiência no uso do Helm para gerenciamento de aplicações em Kubernetes.
Plataformas de Nuvem: Experiência sólida com pelo menos uma grande plataforma de nuvem (ex.: AWS, Azure, Google Cloud).
Gerenciamento de Configuração: Conhecimento em ferramentas de gerenciamento de configuração como Ansible e Terraform.
Redes: Fortes habilidades em redes TCP/IP.
Infraestrutura de Chaves Públicas (PKI): Boa compreensão de PKI e suas aplicações.
Habilidades em Scripting: Domínio de scripts em bash, sh ou ksh.
Linguagens de Programação: Experiência em pelo menos uma linguagem adicional (ex.: Go, JavaScript, Python, Perl).
Gerenciamento do Ciclo de Vida de Versões: Experiência na gestão do ciclo de vida de versões de plataformas e serviços compartilhados, incluindo planejamento, implantação, manutenção e desativação.
Defensor da Automação: Paixão por testes automatizados e implantação contínua.
Adaptabilidade: Capacidade de aprender e se adaptar rapidamente a novas técnicas, frameworks e plataformas.
Perfil Versátil: Habilidade para alternar facilmente entre estratégia, liderança, gestão e atividades técnicas práticas.
Comunicação e Colaboração: Excelentes habilidades de comunicação, gestão de stakeholders e trabalho em equipe.
],