Oferecemos uma oportunidade para que você se junte a nossa equipe como Especialista em Manutenção e Desenvolvimento de Sistemas, onde terá a responsabilidade de garantir a disponibilidade e desempenho dos nossos serviços.
Entre as suas principais tarefas:
* Projetar e operar arquiteturas escaláveis para micro-serviços com Python e FastAPI, garantindo resiliência, segurança e observabilidade contínua.
* Automatizar infraestrutura com Terraform e gerenciar ambientes em Kubernetes ou Cloud Run, habilitando escalabilidade sob demanda.
* Criar e manter pipelines de Continuous Delivery (CD) com GitHub Actions, Argo CD, etc., promovendo builds, testes, deploy e rollback seguros.
* Implementar e melhorar SLAs/SLOs; instrumentar serviços com Prometheus, Grafana, OpenTelemetry e rastreabilidade distribuída.
* Monitorar, diagnosticar e otimizar bancos SQL, caches Redis e bases vetoriais, focando em desempenho e custo.
* Conduzir resposta a incidentes, alerta, mitigação e post-mortem, bem como ações preventivas.
* Capacitar o time, disseminar boas práticas de confiabilidade, revisão de arquitetura, pairing e documentação contínua.
* Participar do plantão on-call rotativo, mantendo a plataforma com o máximo de disponibilidade possível.
Requisitos:
* Experiência prática como SRE/DevOps em ambientes cloud AWS, GCP ou Azure.
* Domínio de Linux, redes, containers, Docker e Kubernetes.
* Proficiência em Infrastructure as Code (IaC) com Terraform, Pulumi ou CloudFormation.
* Rotinas de CD com GitHub Actions, GitLab CI, Argo CD ou similares.
* Instrumentação e alerta com Prometheus, Grafana, Loki e Alertmanager.
* Programação/scripting em Python e Bash, Go é um bonus.
* Conhecimento de Postgres, Redis e tuning de performance.
* Experiência em gestão de incidentes e elaboração de post-mortems.
* Inglês técnico para leitura e escrita.
Diferenciais:
1. Conhecimento em infraestrutura em nuvem Google Cloud Platform, containerização, Kubernetes e serviços serverless.
2. Experiência com Cloud Run, Knative ou Faas.
3. Noções de cost optimisation em FinOps.
4. Contribuições open-source em projetos cloud native.
5. Experiência com ferramentas de monitoramento e observabilidade como Prometheus e Grafana.
6. Familiaridade com pipelines de CD.
7. Conhecimento em IaC como Terraform.
8. Experiência com agentes de IA, LLMS e RAG.
9. Conhecimento em protocolos de rede como TCP/IP e
10. Experiência com proxy reverso e balanceamento de carga.