Engenheiro de Confiabilidade
Acompanhará um time dedicado ao desenvolvimento e manutenção de soluções em Inteligência Artificial para diversas áreas.
Realizar a concepção e operação de arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade em todos os pontos da infraestrutura.
Automatizar a infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, permitindo escalabilidade sob demanda.
Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
Implementar e melhorar SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando no desempenho e custo.
Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
Domínio de Linux, redes, containers (Docker) e Kubernetes.
Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
Programação/scripting em Python e Bash (Go é bônus).
Conhecimento de Postgres, Redis e tuning de performance.
Experiência em gestão de incidentes e elaboração de post-mortems.
Inglês técnico para leitura e escrita.
],