Detalhes do Cargo
O especialista II de Recuperação e Manutenção irá integrar o time responsável pela garantia da disponibilidade e escalabilidade de uma plataforma que fornece serviços de Inteligência Artificial para diversas áreas.
* Responsabilidades:
* Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência, segurança e observabilidade de ponta a ponta;
* Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda;
* Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros;
* Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída;
* Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo;
* Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas;
* Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua;
* Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Habilidades e Qualificações Requeridas
* Habilidades Técnicas:
* Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure);
* Dominio de Linux, redes, containers (Docker) e Kubernetes;
* Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation);
* Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares;
* Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager;
* Programação/scripting em Python e Bash (Go é bônus);
* Conhecimento de Postgres, Redis e tuning de performance;
* Experiência em gestão de incidentes e elaboração de post-mortems;
* Inglês técnico para leitura e escrita.
Benefícios
* Opportunidades de Desenvolvimento:
* Trabalhar em um ambiente dinâmico e inovador;
* Desenvolver habilidades e conhecimentos em tecnologias emergentes;
* Colaborar com profissionais experientes e aprender com eles.
* Disponibilidade para trabalhar em regime de plantão;
* Flexibilidade para trabalhar em equipe e adaptar-se às necessidades da empresa.