Garantir a Confiabilidade e a Escalabilidade dos Ambientes SaaS
Estamos em busca de um(a) profissional para garantir a estabilidade, performance e resiliência dos nossos ambientes SaaS. Esse profissional será fundamental para promover automação e excelência operacional em escala.
Missão do Cargo
A missão desse cargo é assegurar que nossos sistemas estejam sempre disponíveis, performáticos e seguros. O profissional será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados, automação e confiabilidade.
Responsabilidades e Atribuições
Definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente;
Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e Qualificações
Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
Domínio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
Mentalidade 'you build it, you run it', com foco em confiabilidade e colaboração entre times.
Diferenciais
Certificações relevantes (ex: Google SRE, AWS DevOps Engineer, Kubernetes CKA/CKS);
Experiência em ambientes com cultura de SRE madura (SLIs/SLOs, toil reduction, etc);
Vivência com testes de caos e engenharia de resiliência (Chaos Monkey, Gremlin);
Capacidade de análise de custos operacionais e otimização de uso da infraestrutura;
Experiência com automação de testes de performance e de carga;
Atuação anterior com feature flags, dark launches e blue/green deployments.
Benefícios
Na nossa empresa, valorizamos a individualidade e oferecemos benefícios que promovem liberdade, equilíbrio e bem-estar em todas as áreas da vida. Alguns dos benefícios incluem participação nos resultados, vale alimentação/refeição iFood, licença maternidade e paternidade estendida, auxílio creche, plano de saúde, plano odontológico, day OFF no aniversário, empréstimo consignado, Gympass/Wellhub, Zenklub, seguro de vida, vale transporte, equipamentos fornecidos pela empresa, auxílio idiomas e auxílio graduação, pós-graduação, auxílio certificações e universidade corporativa.