 
        
        Desenvolver soluções de alta disponibilidade para micro-serviços é essencial para garantir a resiliência e segurança dos sistemas em nuvem. No contexto da Inteligência Artificial, projetar arquiteturas que sejam capazes de lidar com grandes quantidades de dados e requisitos de baixa latência é fundamental.
O cargo de Especialista II SRE exige proficiência em infraestrutura como código (IaC), rotinas de CI/CD e instrumentação de alertas. Além disso, é necessário ter conhecimento em Kubernetes, Terraform e Prometheus.
A principal responsabilidade do cargo é projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI. Isso envolve garantir a resiliência, segurança e observabilidade de ponta a ponta. O especialista também deve automatizar a infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run.
Noções de cost optimisation em FinOps são uma vantagem significativa para o candidato. Além disso, contribuições open-source em projetos Cloud Native podem ser vistas como um diferencial importante.
Os principais objetivos do cargo incluem:
 * Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI
 * Automatizar a infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run
 * Criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros
 * Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída
 * Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais
Para desempenhar bem este papel, é preciso ter experiência prática como SRE/DevOps em ambientes cloud, dominio de Linux, redes, containers (Docker) e Kubernetes.
O perfil ideal para esse cargo deve contar com as seguintes habilidades:
 * Experiência prática como SRE/DevOps em ambientes cloud
 * Dominio de Linux, redes, containers (Docker) e Kubernetes
 * Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation)
 * Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares
 * Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager
 * Programação/scripting em Python e Bash (Go é bônus)
 * Conhecimento de Postgres, Redis e tuning de performance
 * Experiência em gestão de incidentes e elaboração de post-mortems
Vantagens:
 * Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless
 * Experiência com Cloud Run, Knative ou FaaS
 * Noções de cost optimisation em FinOps
 * Contribuições open-source em projetos Cloud Native
 * Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana
 * Familiaridade com pipelines de CI/CD
 * Conhecimento em infraestrutura como código (IaC), como Terraform
 * Experiência com agentes de IA, LLMs e RAG
 * Conhecimento em protocolos de rede, como TCP/IP
 * Experiência com proxy reverso e balanceamento de carga