Estamos à procura de um profissional para reforçar nosso time de Cloud e Engenharia de Confiabilidade. Esse profissional será fundamental para garantir a estabilidade, performance e resiliência dos nossos ambientes SaaS.
Missão do Cargo
Como parte da nossa estrutura de Cloud e SRE, sua missão será assegurar que nossos sistemas estejam sempre disponíveis, performáticos e seguros. Você será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais.
Responsabilidades e Atribuições
* Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Ajuda no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Lidera o processo de incident response, conduzindo post-mortems e promovendo ações corretivas;
* Colabora com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatiza tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Participa da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
* Apoia a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Utiliza ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos;
Requisitos e Qualificações
1. Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Dominio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
4. Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
5. Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
6. Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade