Aqui você encontrará uma oportunidade única para trabalhar em um ambiente de alta tecnologia, onde a inovação e a criatividade são essenciais para o sucesso.
Missão do cargo
Como membro da equipe de Engenharia de Confiabilidade, sua missão será garantir que os sistemas estejam sempre disponíveis, performáticos e seguros. Você será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados, automação e confiabilidade.
Responsabilidades e atribuições
* Definição de SLIs/SLOs e indicadores de confiabilidade: Definir e acompanhar os padrões de desempenho dos produtos e ambientes;
* Direção de pipelines de observabilidade: Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderança de incident response: Liderar o processo de resposta a incidentes, conduzir post-mortems e promover ações corretivas;
* Collaboração com times de desenvolvimento: Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatização de tarefas operacionais: Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Desenvolvimento de runbooks e estratégias de disaster recovery: Participar da construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres;
* Fomento da cultura de excelência operacional: Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Análise de performance (APM): Utilizar ferramentas de análise de performance para diagnóstico e mitigação de gargalos.
Requisitos e qualificações
1. Experiência em Ambientes Multi-cloud: Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. Sólida experiência em SRE ou DevOps: Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Conhecimento em práticas de observabilidade: Domínio em práticas de observabilidade: métricas, logs, tracing e alertas;
4. Conhecimento avançado em automação e IaC: Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
5. Familiaridade com pipelines de CI/CD: Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
6. Experiência com containers e orquestração: Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Boa base em sistemas distribuídos e escalabilidade: Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade colaborativa: Mentalidade