Descrição do Cargo
Aposição em questão é uma oportunidade única para um profissional de alto nível que esteja disposto a reforçar os ambientes SaaS da nossa empresa.
Missoes e responsabilidades:
* Determinar e monitorar SLIs/SLOs e indicadores de confiabilidade por produto e ambiente.
* Desenvolver e melhorar pipelines de observabilidade (tracing, métricas e logs).
* Liderar o processo de resposta a incidentes, conduzir pós-mortems e promover ações corretivas.
* Colaborar com times de desenvolvimento para garantir a resiliência desde o design da aplicação.
* Automatizar tarefas operacionais, autoscaling e gestão de capacidade em ambientes em nuvem.
* Participar da construção e disseminação de runbooks, playbooks e estratégias de recuperação de desastres.
* Apoiar a cultura de excelência operacional com foco em melhoria contínua, previsibilidade e prevenção de falhas.
Requisitos e qualificações:
* Experiência em Ambientes Multi-cloud (OCI e AWS) e suas ferramentas de gestão e automação.
* Sólida experiência em SRE, DevOps ou Engenharia de Produção em ambientes de missão crítica.
* Domínio em práticas de observabilidade: métricas, logs, tracing e alertas (ex: Datadog, Prometheus, Grafana, etc).
* Conhecimento avançado em automação e IaC (Terraform, Ansible, CDK ou semelhantes).
* Familiaridade com pipelines de CI/CD (ex: GitHub Actions, GitLab, Azure DevOps).
* Experiência com containers e orquestração (Docker, Kubernetes, ECS, EKS).
* Boa base em sistemas distribuídos, redes, escalabilidade e gerenciamento de capacidade.
Benefícios:
* Plano de saúde
* Plano odontológico
* Vale alimentação/refeição iFood
* Participação nos resultados (PPR)
* Day OFF no aniversário
* Empréstimo consignado
* Gympass/Wellhub
* Zenklub
* Seguro de vida
* Vale transporte
* Auxílio idiomas
* Auxílio graduação, pós-graduação, auxílio certificações, universidade corporativa