Sre - site reliability engineering

Pinheiros

Stefanini Group

Anunciada dia 19 fevereiro

Descrição

Descrição da vaga
Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global.
Ao se juntar à Stefanini, você se torna parte de uma jornada global de transformação. Estamos empenhados em criar impacto positivo não apenas nos negócios, mas também na vida de nossos colaboradores. Se você procura uma oportunidade de crescimento profissional em uma empresa que valoriza inovação, respeito, autonomia e parceria, você encontra aqui!
Junte-se a nós e seja parte da mudança!
Modelo de trabalho - Atuação em modelo híbrido, na região do Butantã
Responsabilidades e atribuições
O que esperamos que você realize:
Visão Geral da Posição
Foco em elevar o nível de confiabilidade, observabilidade e resiliência dos sistemas já operados pela equipe atual de DevOps.
Hoje, a equipe já executa todas as rotinas essenciais de operação, infraestrutura e suporte a produção, porém de forma reativa ou distribuída e com foco em manter e suportar os times.
O papel de SRE surge para estruturar, padronizar, medir risco e transformar operação em engenharia.
Objetivo do Cargo
Garantir que sistemas em produção sejam:

Confiáveis
Disponíveis
Observáveis
Escaláveis
Financeiramente sustentáveis

Tudo isso usando engenharia, automação e métricas claras, a partir das atividades que a equipe já executa hoje.
Responsabilidades (Baseadas no que a equipe já faz hoje)
Observabilidade e Produção

Evoluir monitoramento atual para visão de negócio e continuidade
Identificar falhas recorrentes em produção
Atuar na análise e resolução de incidentes
Criar e manter runbooks operacionais

Incidentes e Pós-Incidente

Liderar e documentar post-mortems
Identificar causas raiz (RCA)
Propor melhorias estruturais para evitar recorrência
Trabalhar sem cultura de culpa (blameless)

Confiabilidade de Bancos de Dados

Apoiar a gestão de bancos de dados em produção
Analisar gargalos e riscos operacionais
Trabalhar junto aos times para melhorias de performance
Análise de query, índices e configurações. Criação de migration nos projetos para aplicar mudanças no ambiente

Cloud, Segurança e Estabilidade

Atuar na segurança da cloud com foco em disponibilidade
Avaliar riscos de configuração e arquitetura
Trabalhar com DevOps na evolução da plataforma
Apoiar decisões arquiteturais com foco em resiliência

Capacidade, Custos e FinOps

Relacionar custo x confiabilidade x capacidade
Sugerir melhorias para uso eficiente de recursos

Releases e Pipelines (Interface com DevOps)

Atuar junto ao time de DevOps em releases críticos
Avaliar riscos de deploy em produção
Apoiar estratégias de rollback e mitigação
Ajudar na correção de falhas de pipeline quando impactam produção

Requisitos e qualificações
O que precisamos que você tenha de conhecimento:
Plataformas, Tecnologias e Conhecimentos Esperados
Este papel de Site Reliability Engineer (SRE) exige domínio técnico profundo nas plataformas já utilizadas hoje pela equipe, garantindo confiabilidade, performance, segurança e observabilidade dos sistemas em produção.
Conhecimento Profundo / Avançado (Obrigatório)
O profissional precisa dominar, tomar decisões arquiteturais e atuar como referência técnica em:
Cloud Providers

AWS
GCP
Desejável conhecimentos básico de Huawei

Containers e Orquestração

Kubernetes

Compute & Serverless

AWS Lambda
EC2
AWS RDS

Bancos e Cache

PostgreSQL
Redis

Rede, Edge e Segurança

CloudFront
WAF
ELB / ALB / NLB
VPC, Subnets, Security Groups
DNS e roteamento

Segredos e Segurança

Secret Manager
OWASP Top 10

CI/CD

Pipelines CI/CD (preferencialmente Bitbucket Pipelines)
Terraform

Armazenamento

AWS S3

Proxy e Web Server

Nginx

Monitoramento e Observabilidade

Monitoramento em geral
Grafana / Prometheus AWS CloudWatch

Soluções

Entendimento de sistemas distribuídos e monolitos
Apis, proxy reverso

IA

Uso de ia para acelerar rotinas e soluções de problemas

Ótimo Conhecimento (Alta autonomia)
Capaz de operar, otimizar, debugar e apoiar decisões técnicas:
Mensageria e Eventos

SQS
RabbitMQ

Comunicação e Serviços AWS

SES
API Gateway
ECR

Linguagens e Ecossistema
Noções consistentes de:

JavaScript / TypeScript
Node.js
NestJS
ReactJS
Next.js
Sequelize/prisma/express

Observabilidade e Infraestrutura

CloudWatch (logs, métricas e alarmes)

Bom Conhecimento (Capaz de atuar com apoio de documentação e IA)
Conhecimento sólido para suporte, análise e evolução contínua:
Bancos e Dados

MongoDB
DynamoDB

Linguagens

Golang
Python

Infraestrutura e Automação

Docker / Podman

Observabilidade e Logs

Loki (Grafana Labs)
Logentries (Rapid7)

Integrações e Automação

n8n

DNS

Route53

Conhecimento Desejável (Diferencial)
Não obrigatório, mas agrega valor ao time e à maturidade da plataforma:

ElasticSearch / OpenSearch
Huawei Cloud / Infraestrutura Huawei
Projetos de pentest
GCP Big Query
Codepush da Microsoft implementado em Azure

Informações adicionais
Vale-alimentação ou vale-refeição;
Desconto em cursos, universidades e instituições de idiomas;
Academia Stefanini — plataforma com cursos on-line, gratuitos, atualizados e com certificado;
Mentoring;
Clube de vantagens para consultas e exames;
Assistência médica;
Assistência odontológica;
Clube de vantagens e descontos nos melhores estabelecimentos;
Clube de viagens;
Convênio para pets.
#J-18808-Ljbffr

Se candidatar

Criar um alerta

Salvar