1 posição
Não informado
Recife - PE
Descrição do Cargo
A pessoa Gerente SRE (Site Reliability Engineering) é responsável por liderar a equipe de engenheiros de confiabilidade do site, garantindo a disponibilidade, desempenho e eficiência dos sistemas e infraestrutura.
Requisitos
* Experiência prévia em funções de SRE ou operações de sistemas
* Conhecimento em ferramentas de monitoramento e análise de sistemas
* Habilidades de liderança e trabalho em equipe
* Capacidade de resolver problemas complexos de forma eficiente
* Conhecimento em práticas de DevOps e automação
* Excelentes habilidades de comunicação e documentação
* Formação acadêmica na área de Tecnologia da Informação ou áreas relacionadas
Experiência
* Sólida vivência em Engenharia de Software, DevOps ou SRE, com experiência comprovada em posição de liderança/gestão de times técnicos.
* Histórico de atuação em ambientes de alta escala e criticidade.
Stack técnica
* Nuvem pública: AWS, GCP, Azure e/ou OCI.
* Orquestração e containers: Kubernetes e Docker.
* IaC: Terraform e Ansible.
* Observabilidade: Prometheus, Grafana, Datadog e OpenTelemetry.
* Linguagens: Go, Python e Bash.
* Bancos de dados relacionais e NoSQL em produção.
Práticas
* Disaster Recovery, segurança em infraestrutura e FinOps.
* Gestão de incidentes e cultura de postmortems.
* Planejamento de capacidade e performance em ambientes de microsserviços.
Soft skills
* Liderança e desenvolvimento de pessoas.
* Comunicação clara com públicos técnicos e executivos.
* Tomada de decisão sob pressão e raciocínio analítico.
* Visão de negócio e capacidade de priorização.
ResponsabilidadesLiderança estratégica
* Definir a visão, o roadmap e os processos da área de SRE, alinhando a infraestrutura aos objetivos de negócio.
* Estabelecer e evoluir políticas de SLIs, SLOs, SLAs e error budgets.
* Representar a área junto a stakeholders de Produto, Engenharia, Segurança e Negócios.
Gestão de pessoas e projetos
* Liderar, desenvolver e engajar a equipe de SRE, conduzindo 1:1s, PDIs, avaliações de desempenho e processos de contratação.
* Gerenciar orçamentos de Capex e Opex, acompanhando KPIs de eficiência e custo.
* Priorizar iniciativas e balancear entregas de curto prazo com investimentos em confiabilidade.
Confiabilidade e performance
* Elevar a resiliência dos ambientes, monitorando disponibilidade, latência, taxa de erro e saturação.
* Planejar capacidade, performance e custos de infraestrutura (FinOps).
* Conduzir iniciativas de Disaster Recovery, testes de resiliência e chaos engineering.
Resposta a incidentes
* Atuar ativamente na gestão de crises e incidentes críticos (incident commander quando necessário).
* Promover a cultura blameless post-mortems e aprendizado contínuo.
* Estruturar rotinas de on-call saudáveis e sustentáveis para o time.
Automação e engenharia de plataforma
* Impulsionar o uso de IaC (Terraform, Ansible) e pipelines de CI/CD.
* Reduzir toil por meio de automação e construção de capacidades de plataforma reutilizáveis.
* Estabelecer padrões de observabilidade (logs, métricas, traces) com Prometheus, Grafana, Datadog e OpenTelemetry.
Modelo de Trabalho: Presencial - Recife - PE
Escolaridade
* Pós Graduação
Localização
Rua Domingos José Martins, Recife, Recife - PE, Brasil, 50030-200
#J-18808-Ljbffr