 
        
        Descubra uma oportunidade de carreira em SRE e se junte a uma equipe de especialistas que garantem a disponibilidade, desempenho e segurança de sistemas.
Missionamento do Cargo
A sua missão será garantir que nossos sistemas estejam sempre acessíveis, eficientes e seguros. Nesse sentido, você trabalhará no design e melhoria contínua de pipelines de observabilidade para melhorar a qualidade dos serviços.
 * Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
 * Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
 * Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
 * Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
 * Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
 * Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
 * Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
 * Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Para realizar essas responsabilidades, é necessário ter:
 * Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
 * Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
 * Domínio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
 * Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
 * Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
 * Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
 * Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
 * Mentalidade solucionadora e vontade de aprender constantemente.