Especialista em alta disponibilidade

Mogi das Cruzes

beBeeDesenvolvedor

Anunciada dia 4 outubro

Descrição

Desenvolver soluções de alta disponibilidade para micro-serviços é essencial para garantir a resiliência e segurança dos sistemas em nuvem. No contexto da Inteligência Artificial, projetar arquiteturas que sejam capazes de lidar com grandes quantidades de dados e requisitos de baixa latência é fundamental.

O cargo de Especialista II SRE exige proficiência em infraestrutura como código (IaC), rotinas de CI/CD e instrumentação de alertas. Além disso, é necessário ter conhecimento em Kubernetes, Terraform e Prometheus.

A principal responsabilidade do cargo é projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI. Isso envolve garantir a resiliência, segurança e observabilidade de ponta a ponta. O especialista também deve automatizar a infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run.

Noções de cost optimisation em FinOps são uma vantagem significativa para o candidato. Além disso, contribuições open-source em projetos Cloud Native podem ser vistas como um diferencial importante.

Os principais objetivos do cargo incluem:

* Projetar e operar arquiteturas de alta disponibilidade para micro-serviços Python/FastAPI
* Automatizar a infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run
* Criar e manter pipelines CI/CD que promovam builds, testes, deploy e rollback seguros
* Implementar e evoluir SLIs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída
* Monitorar, diagnosticar e otimizar bancos SQL (Postgres), caches (Redis) e bases vetoriais

Para desempenhar bem este papel, é preciso ter experiência prática como SRE/DevOps em ambientes cloud, dominio de Linux, redes, containers (Docker) e Kubernetes.

O perfil ideal para esse cargo deve contar com as seguintes habilidades:

* Experiência prática como SRE/DevOps em ambientes cloud
* Dominio de Linux, redes, containers (Docker) e Kubernetes
* Proficiência em Infrastructure as Code (Terraform, Pulumi ou CloudFormation)
* Rotinas de CI/CD com GitHub Actions, GitLab CI, Argo CD ou similares
* Instrumentação e alerta com Prometheus, Grafana, Loki/ELK, Alertmanager
* Programação/scripting em Python e Bash (Go é bônus)
* Conhecimento de Postgres, Redis e tuning de performance
* Experiência em gestão de incidentes e elaboração de post-mortems

Vantagens:

* Conhecimento em infraestrutura em nuvem (Google Cloud Platform), conteinerização (Kubernetes) e serviços serverless
* Experiência com Cloud Run, Knative ou FaaS
* Noções de cost optimisation em FinOps
* Contribuições open-source em projetos Cloud Native
* Experiência com ferramentas de monitoramento e observabilidade, como Prometheus e Grafana
* Familiaridade com pipelines de CI/CD
* Conhecimento em infraestrutura como código (IaC), como Terraform
* Experiência com agentes de IA, LLMs e RAG
* Conhecimento em protocolos de rede, como TCP/IP
* Experiência com proxy reverso e balanceamento de carga

Se candidatar

Criar um alerta

Salvar