 
        
        Especialista de Soluções
Buscamos uma pessoa para fazer parte do nosso time de SRE, trabalhando em uma plataforma que oferece serviços de Inteligência Artificial.
Essa pessoa irá projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta.
O trabalho inclui automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
Também é responsável por criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros.
Ao longo da jornada, essa pessoa terá a oportunidade de aprender sobre instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
Competências e Habilidades Exigidas
 * Experiência prática como SRE/DevOps em ambientes cloud.
 * Domínio de Linux, redes, containers (Docker) e Kubernetes.
 * Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
 * Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
 * Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
 * Programação/scripting em Python e Bash (Go é um plus).
 * Conhecimento de Postgres, Redis e tuning de performance.
 * Experiência em gestão de incidentes e elaboração de post-mortems.
 * Inglês técnico para leitura e escrita.
Diferencial:
 * Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
 * Experiência com Cloud Run, Knative ou FaaS.
 * Noções de cost optimisation em FinOps.
 * Contribuições open-source em projetos Cloud Native.
 * Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.
 * Familiaridade com pipelines de CI/CD.
 * Conhecimento em infraestrutura como código (IaC), como Terraform.
 * Experiência com agentes de IA, LLMs e RAG.
 * Conhecimento em protocolos de rede, como TCP/IP.
 * Experiência com proxy reverso e balanceamento de carga.