Requisito para a posição de Especialista em Resiliência de Sistemas (SRE) é um profissional com experiência em ambientes multi-cloud, que tenha habilidade em designar e implementar pipelines de observabilidade. A pessoa escolhida será responsável por garantir a estabilidade dos nossos ambientes SaaS, aplicando princípios de engenharia de software para resolver desafios operacionais.
Missão do cargo
O candidato selecionado trabalhará na estrutura de Cloud e SRE, assegurando que os sistemas estejam sempre disponíveis, performáticos e seguros. Ele/ela será responsável por definir SLIs/SLOs e indicadores de confiabilidade por produto e ambiente, além de liderar o processo de incident response e promover ações corretivas.
Responsabilidades e atribuições
1. Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
2. Atuar no design e melhoria contínua de pipelines de observabilidade;
3. Liderar o processo de incident response e conduzir post-mortems;
4. Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
5. Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
6. Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
7. Apoiara cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
8. Utilizar ferramentas de análise de performance para diagnóstico e mitigação de gargalos.
Requisitos e qualificações
* Experiência com Ambientes Multi-cloud;
* Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
* Dominio em práticas de observabilidade: métricas, logs, tracing e alertas;
* Conhecimento avançado em automação e IaC;
* Familiaridade com pipelines de CI/CD;
* Experiência com containers e orquestração;
* Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
* Mentalidade 'you build it, you run it', com foco em confiabilidade e colaboração entre times.
Diferenciais
* Certificações relevantes;
* Experiência em ambientes com cultura de SRE madura;
* Vivência com testes de caos e engenharia de resiliência;
* Capacidade de análise de custos operacionais e otimização de uso da infraestrutura;
* Experiência com automação de testes de performance e de carga;
* Atuação anterior com feature flags, dark launches e blue/green deployments.
Para se candidatar, o profissional deve ter uma sólida formação acadêmica e experiência relevante na área de tecnologia da informação.