Especialista observability/ monitoramento

Arapiraca

Runtalent

Anunciada dia 16 abril

Descrição

Olá!

Somos a @Runtalent, com DNA inovador, consolidados no mercado de tecnologia e especializados em soluções de TI há quase duas décadas. Acompanhamos todos os avanços tecnológicos dos últimos anos e estamos juntos nessa corrida pela transformação digital.

Temos uma oportunidade para:

Especialista de Observability/ Monitoramento

🔹Modelo de atuação: Remoto

🔹Tempo de Projeto: Indeterminado

📌Requisitos:

Experiência sólida com Datadog ou Elasticsearch, atuando em implementação, administração, sustentação e evolução da plataforma.

Domínio em configuração e operação da ferramenta, incluindo:

Gestão de agentes e coletores;

Políticas de retenção;

Tuning de performance;

Consumo/licenciamento;

Organização e governança da plataforma.

Experiência com instrumentação de aplicações, tanto automática quanto manual.

Conhecimento prático em OpenTelemetry, telemetria distribuída e observabilidade moderna.

Capacidade de análise e correlação de métricas, logs e traces.

Vivência com troubleshooting avançado, investigação de incidentes, profiling, tracing e análise de causa raiz.

Experiência na construção de dashboards, alertas, consultas, notebooks e workflows dentro da ferramenta.

Conhecimento em integrações via APIs, webhooks e conectores nativos, incluindo cenários com ITSM/CMDB e ferramentas de monitoração.

Experiência com ambientes cloud e aplicações distribuídas.

Vivência com Kubernetes/EKS e monitoramento/instrumentação de workloads em containers.

Conhecimento de práticas ágeis, como Scrum e Kanban.

Boa comunicação para interação com times multidisciplinares e apresentação de insights para diferentes níveis da organização.

Perfil analítico, proativo e orientado à melhoria contínua.

📌Desejáveis:

Ter atuado em ambientes com Kubernetes, de grande porte e missão crítica.

Domínio avançado na ferramenta Datadog ou Elasticsearch.

Experiência em ambientes com alta volumetria de dados, múltiplos serviços e arquitetura distribuída.

Vivência em operações 24x7 e cenários com requisitos elevados de disponibilidade e resiliência.

Experiência no suporte a aplicações críticas para o negócio, preferencialmente em segmentos com alta exigência operacional, como varejo, financeiro, logística ou e-commerce.

Conhecimento em observabilidade aplicada a microsserviços, APIs, mensageria e ambientes híbridos/cloud.

Vivência com integração entre observabilidade e processos de incident management/problem management.

Experiência com automação de observabilidade como código.

Capacidade de atuar como referência técnica e multiplicador de conhecimento.

📌Responsabilidades principais:

1. Estratégia e Governança de Observabilidade

Definir, desenhar e evoluir a estratégia de observabilidade com foco em Datadog ou Elasticsearch.

Atuar como referência técnica interna da plataforma, promovendo boas práticas, padrões e governança.

Apoiar tecnicamente times de infraestrutura, desenvolvimento, arquitetura e operações no uso da ferramenta.

Conduzir ações de evangelização, treinamentos e disseminação de conhecimento sobre observabilidade, APM e telemetria.

2. Administração e Otimização da Plataforma

Configurar, administrar e otimizar a plataforma de observabilidade, incluindo agentes, coletores, pipelines, políticas e integrações.

Gerenciar retenção de dados, consumo, licenciamento, performance e custo operacional da ferramenta.

Atuar na definição de padrões de tagging, naming convention, organização de serviços e ambientes.

Garantir escalabilidade, disponibilidade e bom desempenho da solução de observabilidade.

3. Instrumentação e Telemetria

Implementar instrumentação automática e manual em aplicações e serviços.

Trabalhar com OpenTelemetry, SDKs, auto-instrumentation, collectors e agentes nativos.

Coletar, enriquecer e correlacionar métricas, logs e traces.

Mapear dependências entre aplicações, serviços e componentes de infraestrutura.

Apoiar times técnicos na adoção de telemetria customizada e observabilidade orientada a produtos e serviços.

4. Análise de Performance e Troubleshooting

Realizar análises aprofundadas de performance e comportamento de aplicações, considerando latência, throughput, taxa de erro e disponibilidade.

Atuar com distributed tracing, profiling, dependency mapping e investigação de incidentes.

Executar root cause analysis (RCA) em ambientes distribuídos e de missão crítica.

Apoiar o diagnóstico de falhas complexas, gargalos de desempenho e degradação de serviços.

5. Dashboards, Alertas, Notebooks e Workflows

Criar e manter dashboards operacionais, executivos e analíticos com foco em indicadores técnicos e de negócio.

Construir monitores e alertas acionáveis, reduzindo ruído e falsos positivos.

Implementar detecção de anomalias, correlação de eventos e limiares dinâmicos.

Desenvolver notebooks, consultas e investigações guiadas para análise técnica e storytelling de incidentes.

Criar workflows e automações para resposta operacional, enriquecimento de eventos e integração com processos internos.

6. Integrações, Automação e Ecossistema

Integrar Datadog ou Elasticsearch com plataformas de CMDB, ITSM, ServiceNow, Zabbix, CI/CD, webhooks, APIs e ferramentas corporativas.

Automatizar provisionamento de monitores, dashboards, alertas, tagging, onboarding de serviços e integrações.

Apoiar a integração com pipelines DevOps, observabilidade em Kubernetes e ambientes cloud.

Atuar na evolução contínua do ecossistema de observabilidade corporativa.

7. Comunicação e Suporte à Decisão

Traduzir análises técnicas em recomendações claras para públicos técnicos, gerenciais e executivos.

Apoiar tomadas de decisão com base em dados de observabilidade, confiabilidade e experiência do usuário.

Contribuir para melhoria contínua dos processos de operação, sustentação e engenharia de confiabilidade.

Venha fazer parte do time Runtalent 😉

#vemserRun! 🚀💙

Se candidatar

Criar um alerta

Salvar