Site reliability engineer pleno - foco em observabilidade

Vitória Brasil

Jeitto

Anunciada dia 10 maio

Descrição

Há mais de 11 anos, desafiamos o mercado financeiro com soluções acessíveis e inovadoras. Aprovamos até 2x mais que outros players, com tecnologia que combina mais de 400 fatores para oferecer crédito rápido e sem complicação, usando só CPF e celular.

No Jeitto, dar um jeito é pra hoje. Temos urgência porque nosso cliente tem urgência. É por isso que buscamos, todo dia, dar um jeito pra que quem faz muito com pouco continue fazendo mais e melhor sempre.

A área de SRE é responsável por garantir a confiabilidade, disponibilidade e resiliência dos sistemas do Jeitto, atuando de forma proativa na prevenção de incidentes e na rápida recuperação de falhas.

A posição de SRE (foco em Observabilidade) é responsável por garantir a visibilidade, monitoramento e análise do comportamento dos sistemas em produção, trazendo maior confiabilidade, redução de incidentes e melhoria contínua da experiência do usuário, com impactos diretos para o negócio.

Essa posição oferece a oportunidade de atuar de forma estratégica na evolução da observabilidade e confiabilidade das plataformas de engenharia, com alto nível de autonomia e influência sobre decisões técnicas. É um papel voltado não só à operação, mas principalmente à construção e evolução de práticas modernas de SRE, com impacto direto na experiência dos usuários e na eficiência dos times.

O que você vai fazer por aqui:
* Implementar e evoluir soluções de observabilidade (métricas, logs e traces distribuídos), garantindo visibilidade ponta a ponta dos sistemas em produção;
* Definir, implementar e manter SLIs e SLOs, assegurando a mensuração adequada da saúde e desempenho dos serviços;
* Desenvolver e aprimorar dashboards, alertas e painéis operacionais, garantindo monitoramento eficaz e redução de alertas ruidosos;
* Atuar na instrumentação de aplicações e serviços, apoiando times de engenharia na adoção de boas práticas de observabilidade (ex: tracing distribuído, logs estruturados e métricas de negócio);
* Contribuir paraa padronização de ferramentas, bibliotecas e práticas de observabilidade, promovendo consistência entre sistemas;
* Atuar na detecção, análise e resposta a incidentes, utilizando dados de observabilidade para diagnóstico rápido e preciso;
* Participar de análises de causa raiz (RCA), propondo melhorias baseadas em dados para prevenir recorrência de incidentes;
* Coletar, analisar e correlacionar dados de telemetria (métricas, logs e traces), gerando insights acionáveis para melhoria de performance e confiabilidade;
* Apoiar a implementação de testes de carga e resiliência, utilizando observabilidade para avaliar comportamento e identificar gargalos;
* Trabalhar de forma colaborativa com times de Engenharia, Produto e Arquitetura, garantindo que novas soluções já nasçam com padrões adequados de observabilidade;
* Identificar e implementar melhorias para redução de toil relacionado a monitoramento e operação de sistemas;
* Contribuir paraa disseminação da cultura de observabilidade, apoiando outros engenheiros na adoção de boas práticas e ferramentas.
O que buscamos em você:
* Experiência prática atuando como SRE, DevOps ou Software Engineer em ambientes distribuídos e com requisitos de confiabilidade;
* Experiência comdefinição e acompanhamento de SLIs e SLOs, contribuindo para a melhoria da confiabilidade dos sistemas;
* Experiência comcloud computing (AWS, GCP ou Azure), atuando em ambientes produtivos;
* Experiência comKubernetes em produção, incluindo monitoramento, troubleshooting e operação de workloads;
* Domínio de observabilidade (métricas, logs e traces distribuídos), com experiência em ferramentas como Datadog, Prometheus, Grafana, ELK ou OpenTelemetry;
* Experiência cominstrumentação de aplicações e coleta de telemetria, garantindo visibilidade adequada dos sistemas;
* Experiência cominfraestrutura como código (Terraform, Ansible ou similares) e automação de ambientes;
* Experiência compipelines CI/CD e práticas de entrega contínua;
* Experiência comanálise de incidentes e participação em processos de RCA (análise de causa raiz);
* Capacidade analítica e orientação a dados para suporte à tomada de decisão com base em métricas;
* Experiência em trabalho colaborativo com times de engenharia, produto e arquitetura;
* Boa comunicaçãoe capacidade de colaborar em decisões técnicas;
* Cursando ensinosuperior em Tecnologia.
Vai ser um diferencial se você tiver:
* Experiência com Datadog;
* Inglês Avançado;
* Certificações de Datadog ou ferramentas similares.
Aviso de Privacidade

O Jeitto trata os dados pessoais enviados nesta candidatura exclusivamente para fins de recrutamento e seleção, conforme a LGPD. Ao se candidatar, você concorda com o processamento dos seus dados para análise de perfil e comunicações pertinentes ao processo. Dúvidas? Você pode contatar o canal oficial de privacidade do Jeitto: .

#J-18808-Ljbffr

Se candidatar

Criar um alerta

Salvar