Descrição da vaga
Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global.
Ao se juntar à Stefanini, você se torna parte de uma jornada global de transformação. Estamos empenhados em criar impacto positivo não apenas nos negócios, mas também na vida de nossos colaboradores. Se você procura uma oportunidade de crescimento profissional em uma empresa que valoriza inovação, respeito, autonomia e parceria, você encontra aqui!
Junte-se a nós e seja parte da mudança!
Modelo de trabalho - Atuação em modelo híbrido, na região do Butantã
Responsabilidades e atribuições
O que esperamos que você realize:
Visão Geral da Posição
Foco em elevar o nível de confiabilidade, observabilidade e resiliência dos sistemas já operados pela equipe atual de DevOps.
Hoje, a equipe já executa todas as rotinas essenciais de operação, infraestrutura e suporte a produção, porém de forma reativa ou distribuída e com foco em manter e suportar os times.
O papel de SRE surge para estruturar, padronizar, medir risco e transformar operação em engenharia.
Objetivo do Cargo
Garantir que sistemas em produção sejam:
Confiáveis
Disponíveis
Observáveis
Escaláveis
Financeiramente sustentáveis
Tudo isso usando engenharia, automação e métricas claras, a partir das atividades que a equipe já executa hoje.
Responsabilidades (Baseadas no que a equipe já faz hoje)
Observabilidade e Produção
Evoluir monitoramento atual para visão de negócio e continuidade
Identificar falhas recorrentes em produção
Atuar na análise e resolução de incidentes
Criar e manter runbooks operacionais
Incidentes e Pós-Incidente
Liderar e documentar post-mortems
Identificar causas raiz (RCA)
Propor melhorias estruturais para evitar recorrência
Trabalhar sem cultura de culpa (blameless)
Confiabilidade de Bancos de Dados
Apoiar a gestão de bancos de dados em produção
Analisar gargalos e riscos operacionais
Trabalhar junto aos times para melhorias de performance
Análise de query, índices e configurações. Criação de migration nos projetos para aplicar mudanças no ambiente
Cloud, Segurança e Estabilidade
Atuar na segurança da cloud com foco em disponibilidade
Avaliar riscos de configuração e arquitetura
Trabalhar com DevOps na evolução da plataforma
Apoiar decisões arquiteturais com foco em resiliência
Capacidade, Custos e FinOps
Relacionar custo x confiabilidade x capacidade
Sugerir melhorias para uso eficiente de recursos
Releases e Pipelines (Interface com DevOps)
Atuar junto ao time de DevOps em releases críticos
Avaliar riscos de deploy em produção
Apoiar estratégias de rollback e mitigação
Ajudar na correção de falhas de pipeline quando impactam produção
Requisitos e qualificações
O que precisamos que você tenha de conhecimento:
Plataformas, Tecnologias e Conhecimentos Esperados
Este papel de Site Reliability Engineer (SRE) exige domínio técnico profundo nas plataformas já utilizadas hoje pela equipe, garantindo confiabilidade, performance, segurança e observabilidade dos sistemas em produção.
Conhecimento Profundo / Avançado (Obrigatório)
O profissional precisa dominar, tomar decisões arquiteturais e atuar como referência técnica em:
Cloud Providers
AWS
GCP
Desejável conhecimentos básico de Huawei
Containers e Orquestração
Kubernetes
Compute & Serverless
AWS Lambda
EC2
AWS RDS
Bancos e Cache
PostgreSQL
Redis
Rede, Edge e Segurança
CloudFront
WAF
ELB / ALB / NLB
VPC, Subnets, Security Groups
DNS e roteamento
Segredos e Segurança
Secret Manager
OWASP Top 10
CI/CD
Pipelines CI/CD (preferencialmente Bitbucket Pipelines)
Terraform
Armazenamento
AWS S3
Proxy e Web Server
Nginx
Monitoramento e Observabilidade
Monitoramento em geral
Grafana / Prometheus AWS CloudWatch
Soluções
Entendimento de sistemas distribuídos e monolitos
Apis, proxy reverso
IA
Uso de ia para acelerar rotinas e soluções de problemas
Ótimo Conhecimento (Alta autonomia)
Capaz de operar, otimizar, debugar e apoiar decisões técnicas:
Mensageria e Eventos
SQS
RabbitMQ
Comunicação e Serviços AWS
SES
API Gateway
ECR
Linguagens e Ecossistema
Noções consistentes de:
JavaScript / TypeScript
Node.js
NestJS
ReactJS
Next.js
Sequelize/prisma/express
Observabilidade e Infraestrutura
CloudWatch (logs, métricas e alarmes)
Bom Conhecimento (Capaz de atuar com apoio de documentação e IA)
Conhecimento sólido para suporte, análise e evolução contínua:
Bancos e Dados
MongoDB
DynamoDB
Linguagens
Golang
Python
Infraestrutura e Automação
Docker / Podman
Observabilidade e Logs
Loki (Grafana Labs)
Logentries (Rapid7)
Integrações e Automação
n8n
DNS
Route53
Conhecimento Desejável (Diferencial)
Não obrigatório, mas agrega valor ao time e à maturidade da plataforma:
ElasticSearch / OpenSearch
Huawei Cloud / Infraestrutura Huawei
Projetos de pentest
GCP Big Query
Codepush da Microsoft implementado em Azure
Informações adicionais
Vale-alimentação ou vale-refeição;
Desconto em cursos, universidades e instituições de idiomas;
Academia Stefanini — plataforma com cursos on-line, gratuitos, atualizados e com certificado;
Mentoring;
Clube de vantagens para consultas e exames;
Assistência médica;
Assistência odontológica;
Clube de vantagens e descontos nos melhores estabelecimentos;
Clube de viagens;
Convênio para pets.
#J-18808-Ljbffr