Trabalhamos em busca de um(a) especialista em manutenção e resiliência de sistemas para reforçar nosso time de engenharia de cloud.
Missoẽ do cargo
Como parte da nossa estrutura de cloud, sua missão será garantir que nossos sistemas estejam sempre disponíveis e performáticos. Você será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados e confiabilidade.
Todas as nossas vagas estão disponíveis para pessoas com deficiência.
Responsabilidades e atribuições
* Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
* Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
* Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
* Apoiarnossociala excelênciaoperacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e qualificações
1. Experiência com ambientes multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Dominio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
4. Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
5. Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
6. Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade