Desenvolvedor de soluções robustas

Cabo Frio

beBeeObservabilidade

Anunciada dia 19 dezembro

Descrição

Desenvolvedor de Observabilidade

Buscamos alguém que seja especialista em observabilidade com foco em soluções robustas e escaláveis. Trará valor ao consolidar métricas, logs e rastreamentos para garantir visibilidade em tempo real, diagnóstico preciso de falhas e resposta eficiente a incidentes.

Sua atuação será decisiva para o aumento da confiabilidade dos serviços, redução de indisponibilidades, melhoria contínua da performance e apoio estratégico às áreas de tecnologia e produto. Com sua expertise, teremos uma operação mais preditiva, escalável e resiliente.

Você liderará a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces. Definirá, padronizará e manterá painéis e alertas para serviços críticos da organização. Estabelecerá e acompanhará indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados.

Automatizará respostas a alertas e reduzirão o toil por meio de scripts e integrações entre ferramentas. Atuará na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.

Apoiará squads de produto e infraestrutura na análise de performance e comportamento dos sistemas. Desenvolverá e disseminará boas práticas de observabilidade nos ciclos de desenvolvimento e operações.

Conduzirá treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações. Evoluirá continuamente o processo de detecção proativa e resposta rápida a falhas. Apoiará auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.

Principais conhecimentos:

Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace.

Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos.

Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio.

Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares.

Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker).

Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps.

Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell).

Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis).

Criação e manutenção de documentação operacional (runbooks, playbooks, checklists). Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade.

],

Se candidatar

Criar um alerta

Salvar