Carreira De SRE
Recebemos candidaturas para um cargo de engenheiro de confiabilidade e operações, responsável por projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI.
Essa pessoa fará parte do nosso time de desenvolvimento e trabalhará em conjunto com os outros colegas para garantir a resiliência, segurança e observabilidade da plataforma.
* Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI.
* Automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run.
* Criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros.
* Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana e OpenTelemetry.
* Monitorar, diagnosticar e otimizar bancos SQL, caches e bases vetoriais.
* Conduzir resposta a incidentes: alerta, mitigação, post-mortem e ações preventivas.
* Capacitar o time e participar do plantão rotativo.
Requerimentos:
* Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
* Domínio de Linux, redes, containers e Kubernetes.
* Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
* Rotinas de CI/CD com GitHub Actions, GitLab CI ou Argo CD.
* Instrumentação e alerta com Prometheus, Grafana e Loki/ELK.
* Programação/scripting em Python e Bash.
* Conhecimento de Postgres, Redis e tuning de performance.
* Experiência em gestão de incidentes e elaboração de post-mortems.
Diferencial:
* Conhecimento em infraestrutura em nuvem, conteinerização e serviços serverless.
* Experiência com Cloud Run, Knative ou FaaS.
* Noções de cost optimisation em FinOps.
* Contribuições open-source em projetos Cloud Native.