 
        
        Missão e Desafios
Esta oportunidade envolve integrar-se a um time de SRE em uma plataforma que oferece serviços de Inteligência Artificial para diversas áreas. A experiência com agentes de IA e tecnologias emergentes será essencial.
A aplicação encontra-se no núcleo estratégico da empresa e serve várias áreas como área de plataforma para clientes internos e externos.
O que você fará:
 * Desenvolver arquiteturas de alta disponibilidade para micro-serviços Python/ FastAPI, garantindo resiliência, segurança e observabilidade.
 * Automatizar infraestrutura (IAC) com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run, habilitando escalabilidade sob demanda.
 * Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
 * Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, Open Telemetry e rastreabilidade distribuída.
 * Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais focando em desempenho e custo.
 * Conduzir resposta a incidentes: alerta, mitigação, post-mortem e ações preventivas.
 * Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
 * Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Requisitos e Qualificações
 * Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
 * Domínio de Linux, redes, containers (Docker) e Kubernetes.
 * Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
 * Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
 * Instrumentação e alerta com Prometheus, Grafana, Loki/ELK e Alertmanager.
 * Programação/scripting em Python e Bash (Go é bônus).
 * Conhecimento de Postgres, Redis e tuning de performance.
 * Experiência em gestão de incidentes e elaboração de post-mortems.
 * Inglês técnico para leitura e escrita.
Desafios Inovadores
 1. Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
 2. Experiência com Cloud Run, Knative ou Faas.
 3. Noções de cost optimisation em FinOps.
 4. Contribuições open-source em projetos cloud native.
 5. Experiência com ferramentas de monitoramento e observabilidade como Prometheus e Grafana.
 6. Familiaridade com pipelines de CI/CD.
 7. Conhecimento em infraestrutura como código (IAC) como Terraform.
 8. Experiência com agentes de IA, LLMs e RAG.
 9. Conhecimento em protocolos de rede como TCP/IP e balanceamento de carga.