Missão e Objetivos:
">
Este profissional fará parte do time responsável pelo suporte técnico de uma plataforma que fornece serviços de Inteligência Artificial para diversas áreas. A pessoa será encarregada de garantir a disponibilidade, a segurança e a observabilidade da plataforma, atuando em conjunto com o time para promover soluções inovadoras.
">
Funções e Responsabilidades:
">
* Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI, garantindo resiliência e segurança.
">
* Automatizar infraestrutura (IaC) com Terraform e gerenciar ambientes em Kubernetes (GKE) ou Cloud Run, habilitando escalabilidade sob demanda.
">
* Criar e manter pipelines CI/CD (GitHub Actions, Argo CD, etc.) que promovam builds, testes, deploy e rollback seguros.
">
* Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
">
* Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais, focando em desempenho e custo.
">
* Conduzir resposta a incidentes: alerta, mitigação, post-mortem, ações preventivas.
">
* Capacitar o time: disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
">
* Participar do plantão (on-call) rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
">
">
Requisitos e Habilidades:
">
* Experiência prática como SRE/DevOps em ambientes cloud (AWS, GCP ou Azure).
">
* Domínio de Linux, redes, containers (Docker) e Kubernetes.
">
* Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation).
">
* Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares.
">
* Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager.
">
* Programação/scripting em Python e Bash (Go é bônus).
">
* Conhecimento de Postgres, Redis e tuning de performance.
">
* Experiência em gestão de incidentes e elaboração de post-mortems.
">
* Inglês técnico para leitura e escrita.
">
">
Diferenciais:
">
1. Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless.
">
2. Experiência com Cloud Run, Knative ou FaaS.
">
3. Noções de cost optimisation em FinOps.
">
4. Contribuições open-source em projetos Cloud Native.
">
5. Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana.
">
6. Familiaridade com pipelines de CI/CD.
">
7. Conhecimento em infraestrutura como código (IaC), como Terraform.
">
8. Experiência com agentes de IA, LLMs e RAG.
">
9. Conhecimento em protocolos de rede, como TCP/IP e
">
10. Experiência com proxy reverso e balanceamento de carga.
"]},