Olá!Somos a @Runtalent, com DNA inovador, consolidados no mercado de tecnologia e especializados em soluções de TI há quase duas décadas. Acompanhamos todos os avanços tecnológicos dos últimos anos e estamos juntos nessa corrida pela transformação digital.Temos uma oportunidade para:Especialista de Observability/ MonitoramentoModelo de atuação: RemotoTempo de Projeto: IndeterminadoRequisitos:Experiência sólida com Datadog ou Elasticsearch, atuando em implementação, administração, sustentação e evolução da plataforma.Domínio em configuração e operação da ferramenta, incluindo:Gestão de agentes e coletores;
Políticas de retenção;
Tuning de performance;
Consumo/licenciamento;
Organização e governança da plataforma.Experiência com instrumentação de aplicações, tanto automática quanto manual.Conhecimento prático em OpenTelemetry, telemetria distribuída e observabilidade moderna.Capacidade de análise e correlação de métricas, logs e traces.Vivência com troubleshooting avançado, investigação de incidentes, profiling, tracing e análise de causa raiz.Experiência na construção de dashboards, alertas, consultas, notebooks e workflows dentro da ferramenta.Conhecimento em integrações via APIs, webhooks e conectores nativos, incluindo cenários com ITSM/CMDB e ferramentas de monitoração.Experiência com ambientes cloud e aplicações distribuídas.Vivência com Kubernetes/EKS e monitoramento/instrumentação de workloads em containers.Conhecimento de práticas ágeis, como Scrum e Kanban.Boa comunicação para interação com times multidisciplinares e apresentação de insights para diferentes níveis da organização.Perfil analítico, proativo e orientado à melhoria contínua.Desejáveis:Ter atuado em ambientes com Kubernetes, de grande porte e missão crítica.Domínio avançado na ferramenta Datadog ou Elasticsearch.Experiência em ambientes com alta volumetria de dados, múltiplos serviços e arquitetura distribuída.Vivência em operações 24x7 e cenários com requisitos elevados de disponibilidade e resiliência.Experiência no suporte a aplicações críticas para o negócio, preferencialmente em segmentos com alta exigência operacional, como varejo, financeiro, logística ou e-commerce.Conhecimento em observabilidade aplicada a microsserviços, APIs, mensageria e ambientes híbridos/cloud.Vivência com integração entre observabilidade e processos de incident management/problem management.Experiência com automação de observabilidade como código.Capacidade de atuar como referência técnica e multiplicador de conhecimento.Responsabilidades principais:1. Estratégia e Governança de ObservabilidadeDefinir, desenhar e evoluir a estratégia de observabilidade com foco em Datadog ou Elasticsearch.Atuar como referência técnica interna da plataforma, promovendo boas práticas, padrões e governança.Apoiar tecnicamente times de infraestrutura, desenvolvimento, arquitetura e operações no uso da ferramenta.Conduzir ações de evangelização, treinamentos e disseminação de conhecimento sobre observabilidade, APM e telemetria.2. Administração e Otimização da PlataformaConfigurar, administrar e otimizar a plataforma de observabilidade, incluindo agentes, coletores, pipelines, políticas e integrações.Gerenciar retenção de dados, consumo, licenciamento, performance e custo operacional da ferramenta.Atuar na definição de padrões de tagging, naming convention, organização de serviços e ambientes.Garantir escalabilidade, disponibilidade e bom desempenho da solução de observabilidade.3. Instrumentação e TelemetriaImplementar instrumentação automática e manual em aplicações e serviços.Trabalhar com OpenTelemetry, SDKs, auto-instrumentation, collectors e agentes nativos.Coletar, enriquecer e correlacionar métricas, logs e traces.Mapear dependências entre aplicações, serviços e componentes de infraestrutura.Apoiar times técnicos na adoção de telemetria customizada e observabilidade orientada a produtos e serviços.4. Análise de Performance e TroubleshootingRealizar análises aprofundadas de performance e comportamento de aplicações, considerando latência, throughput, taxa de erro e disponibilidade.Atuar com distributed tracing, profiling, dependency mapping e investigação de incidentes.Executar root cause analysis (RCA) em ambientes distribuídos e de missão crítica.Apoiar o diagnóstico de falhas complexas, gargalos de desempenho e degradação de serviços.5. Dashboards, Alertas, Notebooks e WorkflowsCriar e manter dashboards operacionais, executivos e analíticos com foco em indicadores técnicos e de negócio.Construir monitores e alertas acionáveis, reduzindo ruído e falsos positivos.Implementar detecção de anomalias, correlação de eventos e limiares dinâmicos.Desenvolver notebooks, consultas e investigações guiadas para análise técnica e storytelling de incidentes.Criar workflows e automações para resposta operacional, enriquecimento de eventos e integração com processos internos.6. Integrações, Automação e EcossistemaIntegrar Datadog ou Elasticsearch com plataformas de CMDB, ITSM, ServiceNow, Zabbix, CI/CD, webhooks, APIs e ferramentas corporativas.Automatizar provisionamento de monitores, dashboards, alertas, tagging, onboarding de serviços e integrações.Apoiar a integração com pipelines DevOps, observabilidade em Kubernetes e ambientes cloud.Atuar na evolução contínua do ecossistema de observabilidade corporativa.7. Comunicação e Suporte à DecisãoTraduzir análises técnicas em recomendações claras para públicos técnicos, gerenciais e executivos.Apoiar tomadas de decisão com base em dados de observabilidade, confiabilidade e experiência do usuário.Contribuir para melhoria contínua dos processos de operação, sustentação e engenharia de confiabilidade.Venha fazer parte do time Runtalent#vemserRun!