1 posição Não informado Recife - PE Descrição do Cargo A pessoa Gerente SRE (Site Reliability Engineering) é responsável por liderar a equipe de engenheiros de confiabilidade do site, garantindo a disponibilidade, desempenho e eficiência dos sistemas e infraestrutura. Requisitos Experiência prévia em funções de SRE ou operações de sistemas Conhecimento em ferramentas de monitoramento e análise de sistemas Habilidades de liderança e trabalho em equipe Capacidade de resolver problemas complexos de forma eficiente Conhecimento em práticas de DevOps e automação Excelentes habilidades de comunicação e documentação Formação acadêmica na área de Tecnologia da Informação ou áreas relacionadas Experiência Sólida vivência em Engenharia de Software, DevOps ou SRE, com experiência comprovada em posição de liderança/gestão de times técnicos. Histórico de atuação em ambientes de alta escala e criticidade. Stack técnica Nuvem pública: AWS, GCP, Azure e/ou OCI. Orquestração e containers: Kubernetes e Docker. IaC: Terraform e Ansible. Observabilidade: Prometheus, Grafana, Datadog e OpenTelemetry. Linguagens: Go, Python e Bash. Bancos de dados relacionais e NoSQL em produção. Práticas Disaster Recovery, segurança em infraestrutura e FinOps. Gestão de incidentes e cultura de postmortems. Planejamento de capacidade e performance em ambientes de microsserviços. Soft skills Liderança e desenvolvimento de pessoas. Comunicação clara com públicos técnicos e executivos. Tomada de decisão sob pressão e raciocínio analítico. Visão de negócio e capacidade de priorização. Responsabilidades Liderança estratégica Definir a visão, o roadmap e os processos da área de SRE, alinhando a infraestrutura aos objetivos de negócio. Estabelecer e evoluir políticas de SLIs, SLOs, SLAs e error budgets. Representar a área junto a stakeholders de Produto, Engenharia, Segurança e Negócios. Gestão de pessoas e projetos Liderar, desenvolver e engajar a equipe de SRE, conduzindo 1:1s, PDIs, avaliações de desempenho e processos de contratação. Gerenciar orçamentos de Capex e Opex, acompanhando KPIs de eficiência e custo. Priorizar iniciativas e balancear entregas de curto prazo com investimentos em confiabilidade. Confiabilidade e performance Elevar a resiliência dos ambientes, monitorando disponibilidade, latência, taxa de erro e saturação. Planejar capacidade, performance e custos de infraestrutura (FinOps). Conduzir iniciativas de Disaster Recovery, testes de resiliência e chaos engineering. Resposta a incidentes Atuar ativamente na gestão de crises e incidentes críticos (incident commander quando necessário). Promover a cultura blameless post-mortems e aprendizado contínuo. Estruturar rotinas de on-call saudáveis e sustentáveis para o time. Automação e engenharia de plataforma Impulsionar o uso de IaC (Terraform, Ansible) e pipelines de CI/CD. Reduzir toil por meio de automação e construção de capacidades de plataforma reutilizáveis. Estabelecer padrões de observabilidade (logs, métricas, traces) com Prometheus, Grafana, Datadog e OpenTelemetry. Modelo de Trabalho: Presencial - Recife - PE Escolaridade Pós Graduação Localização Rua Domingos José Martins, Recife, Recife - PE, Brasil, 50030-200 J-18808-Ljbffr