Nossa equipe de Engenharia de Confiabilidade e Cloud busca um(a) especialista para reforçar nossa infraestrutura em nuvem e garantir a estabilidade, performance e resiliência dos nossos ambientes SaaS.
Missão do Cargo
O Especialista SRE será fundamental para aplicar princípios de engenharia de software para resolver desafios operacionais e promover uma cultura orientada a dados, automação e confiabilidade.
O profissional responsável por essa posição precisará garantir que nossos sistemas estejam sempre disponíveis, performáticos e seguros. Isso inclui definir e acompanhar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente, além de atuar no design e melhoria contínua de pipelines de observabilidade.
Além disso, o candidato precisa liderar o processo de incident response, conduzir post-mortems e promover ações corretivas. É importante que ele colabore com times de desenvolvimento para garantir a resiliência desde o design da aplicação, automatize tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem.
Responsabilidades e Atribuições
* Definição de SLIs/SLOs e Indicadores de Confiabilidade: Definir e acompanhar metas de desempenho e níveis de serviço para produtos e ambientes;
* Pipeline de Observabilidade: Atuar no design e melhoria contínua de trazendo de observação, métricas e logs para monitoramento e diagnóstico de problemas;
* Liderança de Incident Response: Liderar o processo de resposta a incidentes, conduzir análises pós-incidentes e implementar ações corretivas para prevenir futuros problemas;
* Colaboração com Times de Desenvolvimento: Trabalhar em conjunto com times de desenvolvimento para garantir a resiliência desde o design da aplicação, minimizando falhas e melhorando a experiência do usuário;
* Automatização de Tarefas Operacionais: Automatizar processos rotineiros, como autoscaling, gerenciamento de capacidade e manutenção de ambientes em nuvem;
* Gestão de Capacidade: Garantir que os ambientes em nuvem sejam escalonados e gerenciados adequadamente para atender às necessidades de negócios;
* Uso de Ferramentas de Análise de Performance: Utilizar ferramentas de análise de performance para identificar gargalos e melhorar a eficiência dos ambientes em nuvem.
Requisitos e Qualificações
* Experiência em Ambientes Multi-cloud: Experiência em trabalhar com ambientes em nuvem de múltiplas plataformas (OCI e AWS);
* SRE ou DevOps: Experiência em cargos relacionados a SRE (Engenharia de Confiabilidade e Disponibilidade) ou DevOps (Desenvolvimento de Ops), especialmente em ambientes críticos;
* Observabilidade: Conhecimento avançado em práticas de observabilidade, incluindo métricas, logs, tracing e alertas;
* Automatização e IaC: Conhecimento em técnicas de automação e Orquestração Infraestrutura como Código (IaC), utilizando ferramentas como Terraform, Ansible, CDK ou semelhantes;
* Pipelines CI/CD: Experiência com pipelines de Continuous Integration/Continuous Deployment (CI/CD), como GitHub Actions, GitLab, Azure DevOps;
* Containers e Orquestração: Conhecimento em containers e orquestração, como Docker, Kubernetes, ECS, EKS;
* Sistemas Distribuídos, Redes, Escalabilidade e Gerenciamento de Capacidade: Conhecimento básico em conceitos de sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade; e
* Mentalidade 'You Build It, You Run It': Mentalidade focada na responsabilidade pela criação e manutenção dos ambientes em nuvem, priorizando confiabilidade e colaboração entre equipes.
Diferenciais
* Certificações relevantes: Possuir certificações relevantes, como Google SRE, AWS DevOps Engineer, Kubernetes CKA/CKS;
* Experiência em Ambientes Maduros de SRE: Experiência em ambientes com cultura de SRE madura, onde as práticas são profundamente implantadas e apoiadas pela liderança;
* Vivência com Testes de Caos e Engenharia de Resiliência: Experiência em testes de caos e engenharia de resiliência, usando ferramentas como Chaos Monkey, Gremlin;
* Análise de Custos Operacionais e Otimização de Uso da Infraestrutura: Conhecimento em análise de custos operacionais e otimização do uso da infraestrutura em nuvem; e
* Atuação anterior com Feature Flags, Dark Launches e Blue/Green Deployments: Experiência em utilizar feature flags, dark launches e blue/green deployments em produção.
Benefícios
* Participação nos Resultados (PPR): Participação nos resultados da empresa através de planos de participação nos lucros;
* Vale Alimentação/Refeição iFood: Vale alimentação ou refeição oferecido através de parceira iFood;
* Licença Maternidade e Paternidade Estendida: Licença maternidade e paternidade estendida, oferecendo mais tempo para cuidar das crianças novas;
* Auxílio Creche: Auxílio para pagar creches ou equivalentes, ajudando a cuidar das crianças pequenas durante o dia enquanto as mães ou pais estão trabalhando;
* Plano de saúde: Plano de saúde completo para toda a família, protegendo contra doenças e lesões;
* Plano odontológico: Plano odontológico para cobrir procedimentos dentários importantes;
* Day OFF no Aniversário: Dia de folga dedicado ao aniversário do funcionário, permitindo celebração com amigos e familiares; e
* Seguro de Vida: Seguro de vida para todos os funcionários, fornecendo tranquilidade financeira para suas famílias.