Estamos em busca de um(a) Site Reliability Engineer (SRE) para atuar em um ambiente desafiador, contribuindo diretamente para a confiabilidade, escalabilidade e performance de sistemas críticos.
Principais Responsabilidades
* Definir e evoluir SLIs, SLOs e Error Budgets para serviços críticos.
* Implantar e manter observabilidade ponta a ponta (métricas, logs, traces e alertas).
* Automatizar processos operacionais, reduzindo atividades manuais (toil).
* Apoiar times de produto na adoção de boas práticas de resiliência, disponibilidade e performance.
* Atuar na otimização de capacidade, escalabilidade e custos da infraestrutura.
* Fortalecer processos de deploy seguro utilizando CI/CD, rollback, canary releases e feature flags.
* Promover uma cultura de melhoria contínua, aprendizado e gestão blameless de incidentes.
✅ Requisitos Obrigatórios
* Experiência com operação de sistemas distribuídos em ambientes Cloud (AWS ou Azure).
* Vivência com Kubernetes e containers em produção.
* Conhecimento sólido em observabilidade utilizando ferramentas como Prometheus, Grafana, ELK/OpenSearch, Dynatrace SaaS ou similares.
* Experiência com Infraestrutura como Código (Terraform, Pulumi ou equivalentes).
* Conhecimento em automação através de Python, Go, Bash ou linguagens similares.
* Experiência com pipelines de CI/CD utilizando GitHub Actions, GitLab CI, Jenkins ou Azure DevOps.
⭐ Diferenciais
* Experiência em ambientes regulados, especialmente nos segmentos financeiro ou de crédito.
* Conhecimento em práticas de FinOps e otimização de custos em nuvem.
* Experiência com Chaos Engineering e testes de resiliência.
* Certificações em Cloud, Kubernetes ou SRE.
* Conhecimento em arquiteturas orientadas a eventos (Kafka, RabbitMQ).
Benefícios:
️ Vale Refeição e Vale Alimentação Ticket;
Auxílio Home Office Ticket;