Recrutamos Especialistas em Confiabilidade de Sistemas para fortalecer nosso time de Engenharia e Cloud.
O profissional responsável por garantir a disponibilidade, desempenho e resiliência dos ambientes SaaS, promovendo automação e excelência operacional em larga escala.
Missoes
Garantir que nossos sistemas estejam sempre disponíveis, performáticos e seguros. O candidato aplicará princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados, automação e confiabilidade.
Responsabilidades
* Definição e acompanhamento de SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderança do processo de resposta a incidentes, condução de post-mortems e implementação de ações corretivas;
* Colaboração com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatização de tarefas operacionais, escalonamento automático e gestão de capacidade em ambientes em nuvem;
* Participação na construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres;
* Apoio à cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Uso de ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e qualificações
1. Experiência em Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes críticos;
3. Dominio em práticas de observabilidade: métricas, logs, tracing e alertas;
4. Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
5. Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
6. Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade