Profissional de Engenharia de Confiabilidade
Nossa empresa está procurando por um profissional altamente qualificado para o cargo de Profissional de Engenharia de Confiabilidade. Nesta função, você será responsável por garantir a estabilidade e a resiliência dos nossos ambientes SaaS.
Missão do Cargo
A sua missão principal será assegurar que nossos sistemas estejam sempre disponíveis, performáticos e seguros. Você precisará aplicar princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados, automação e confiabilidade.
Responsabilidades e Atribuições
* Definição e Monitoramento de SLIs/SLOs: Defina e acompanhe os indicadores de desempenho de serviço (SLIs) e objetivos de nível de serviço (SLOs) por produto e ambiente;
* Pipelines de Observabilidade: Atue no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Resposta a Incidentes: Liderar o processo de resposta a incidentes, conduzir pós-mortems e promover ações corretivas;
* Collaboração com Desenvolvimento: Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatização Operacional: Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Construção e Disseminação de Recursos: Participar da construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres;
* Prevenção de Falhas: Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Análise de Performance: Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e Qualificações
1. Experiência em Ambientes Multi-cloud: Experiência com ambientes multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. Sólida Experiência em SRE/DevOps: Sólida experiência em Site Reliability Engineering (SRE), DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Domínio em Observabilidade: Domínio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
4. Conhecimento em Automação e IaC: Conhecimento avançado em automação e infraestrutura como código (IaC) (Terraform, Ansible, CDK ou semelhantes);
5. Familiaridade com Pipelines de CI/CD: Familiaridade com pipelines de continuous integration e delivery (CI/CD) (ex: GitHub Actions, GitLab, Azure DevOps);
6. Experiência com Containers e Orquestração: Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Boa Base em Sistemas Distribuídos: Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade de