Mission
">
Essa pessoa será parte de um time que trabalha em uma plataforma que oferece serviços de inteligência artificial para diversas áreas, além de permitir o desenvolvimento de soluções com agentes de IA integrados a produtos Totvs. Essa aplicação está no núcleo estratégico da empresa e atende diversas áreas da companhia, incluindo clientes internos e externos.
O que você fará
1. Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/ FastAPI, garantindo resiliência, segurança e observabilidade em toda a cadeia.
2. Automatizar infraestrutura (iac) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
3. Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
4. Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
5. Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.
6. Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
7. Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
8. Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
O que esperamos de você
* Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
* Dominio de Linux, redes, containers (Docker) e Kubernetes.
* Proficiência em Infraestrutura como Código (Terraform, Pulumi ou CloudFormation).
* Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
* Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, AlertManager.
* Programação/scripting em Python e Bash (Go é bônus).
* Conhecimento de Postgres, Redis e tuning de performance.
* Experiência em gestão de incidentes e elaboração de post-mortems.
* Inglês técnico para leitura e escrita.
Diferencial
1. Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
2. Experiência com Cloud Run, Knative ou Faas.
3. Noções de cost optimisation em FinOps.
4. Contribuições open-source em projetos cloud native.
5. Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.
6. Familiaridade com pipelines de CI/CD.
7. Conhecimento em infraestrutura como código (iac), como Terraform.
8. Experiência com agentes de IA, LLMs e RAG.
9. Conhecimento em protocolos de rede, como TCP/IP e
10. Experiência com proxy reverso e balanceamento de carga.