 
        
        Descrição do Cargo
O nosso time de Alta Disponibilidade de Aplicações está procurando um especialista para trabalhar em projetos de alta disponibilidade e segurança das nossas plataformas de Inteligência Artificial.
O cargo exige a capacidade de prover arquiteturas de alta disponibilidade, automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run. Além disso, é necessário criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros.
 * Responsabilidades:
 * Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI;
 * Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run;
 * Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros;
 * Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída;
 * Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo;
 * Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas;
 * Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua;
 * Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível;
Habilidades e Qualificações Requeridas
Nós estamos procurando por alguém com experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure); domínio de Linux, redes, containers (Docker) e Kubernetes; proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation); rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
 * Habilidades e Qualificações:
 * Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure);
 * Domínio de Linux, redes, containers (Docker) e Kubernetes;
 * Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation);
 * Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares;
 * Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager;
 * Programação/scripting em Python e Bash (Go é bônus);
 * Conhecimento de Postgres, Redis e tuning de performance;
 * Experiência em gestão de incidentes e elaboração de post-mortems;
 * Inglês técnico para leitura e escrita;
Vantagens do Cargo
Nós oferecemos uma equipe colaborativa e dinâmica, com oportunidades de crescimento e desenvolvimento profissional.
Outras Informações
Nós valorizamos a diversidade e a inclusão no nosso ambiente de trabalho.