Requisito de SRE
Vamos discutir a missão desse profissional que será fundamental para garantir a estabilidade e performance dos ambientes SaaS, promovendo automação e excelência operacional em escala.
A missão do cargo é assegurar que nossos sistemas estejam sempre disponíveis, performáticos e seguros. O profissional será responsável por aplicar princípios de engenharia de software para resolver desafios operacionais, promovendo uma cultura orientada a dados, automação e confiabilidade.
Responsabilidades e Atribuições
* Definição e acompanhamento de SLIs/SLOs: Definir e acompanhar indicadores de confiabilidade por produto e ambiente;
* Pipeline de Observabilidade: Atuar no design e melhoria contínua de pipelines de observabilidade (tracing, métricas e logs);
* Liderança de Incident Response: Liderar o processo de incident response, conduzir post-mortems e promover ações corretivas;
* Resiliência desde o Design da Aplicação: Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação;
* Automatização de Tarefas Operacionais: Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem;
* Construção e Disseminação de Runbooks: Participar da construção e disseminação de runbooks, playbooks e estratégias de disaster recovery;
* Cultura de Excelência Operacional: Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas;
* Análise de Performance: Utilizar ferramentas de análise de performance (APM) para diagnóstico e mitigação de gargalos.
Requisitos e Qualificações
1. Ambientes Multi-Cloud: Experiência com Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação;
2. SRE ou DevOps: Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica;
3. Práticas de Observabilidade: Domínio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc);
4. Automatização e IaC: Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes);
5. Pipelines de CI/CD: Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps);
6. Containers e Orquestração: Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS);
7. Sistemas Distribuídos: Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade;
8. Mentalidade