Olá!
Somos a @Runtalent, com DNA inovador, consolidados no mercado de tecnologia e especializados em soluções de TI há quase duas décadas. Acompanhamos todos os avanços tecnológicos dos últimos anos e estamos juntos nessa corrida pela transformação digital.
Temos uma oportunidade para:
Especialista de Observability/ Monitoramento
🔹Modelo de atuação: Remoto
🔹Tempo de Projeto: Indeterminado
📌Requisitos:
Experiência sólida com Datadog ou Elasticsearch, atuando em implementação, administração, sustentação e evolução da plataforma.
Domínio em configuração e operação da ferramenta, incluindo:
Gestão de agentes e coletores;
Políticas de retenção;
Tuning de performance;
Consumo/licenciamento;
Organização e governança da plataforma.
Experiência com instrumentação de aplicações, tanto automática quanto manual.
Conhecimento prático em OpenTelemetry, telemetria distribuída e observabilidade moderna.
Capacidade de análise e correlação de métricas, logs e traces.
Vivência com troubleshooting avançado, investigação de incidentes, profiling, tracing e análise de causa raiz.
Experiência na construção de dashboards, alertas, consultas, notebooks e workflows dentro da ferramenta.
Conhecimento em integrações via APIs, webhooks e conectores nativos, incluindo cenários com ITSM/CMDB e ferramentas de monitoração.
Experiência com ambientes cloud e aplicações distribuídas.
Vivência com Kubernetes/EKS e monitoramento/instrumentação de workloads em containers.
Conhecimento de práticas ágeis, como Scrum e Kanban.
Boa comunicação para interação com times multidisciplinares e apresentação de insights para diferentes níveis da organização.
Perfil analítico, proativo e orientado à melhoria contínua.
📌Desejáveis:
Ter atuado em ambientes com Kubernetes, de grande porte e missão crítica.
Domínio avançado na ferramenta Datadog ou Elasticsearch.
Experiência em ambientes com alta volumetria de dados, múltiplos serviços e arquitetura distribuída.
Vivência em operações 24x7 e cenários com requisitos elevados de disponibilidade e resiliência.
Experiência no suporte a aplicações críticas para o negócio, preferencialmente em segmentos com alta exigência operacional, como varejo, financeiro, logística ou e-commerce.
Conhecimento em observabilidade aplicada a microsserviços, APIs, mensageria e ambientes híbridos/cloud.
Vivência com integração entre observabilidade e processos de incident management/problem management.
Experiência com automação de observabilidade como código.
Capacidade de atuar como referência técnica e multiplicador de conhecimento.
📌Responsabilidades principais:
1. Estratégia e Governança de Observabilidade
Definir, desenhar e evoluir a estratégia de observabilidade com foco em Datadog ou Elasticsearch.
Atuar como referência técnica interna da plataforma, promovendo boas práticas, padrões e governança.
Apoiar tecnicamente times de infraestrutura, desenvolvimento, arquitetura e operações no uso da ferramenta.
Conduzir ações de evangelização, treinamentos e disseminação de conhecimento sobre observabilidade, APM e telemetria.
2. Administração e Otimização da Plataforma
Configurar, administrar e otimizar a plataforma de observabilidade, incluindo agentes, coletores, pipelines, políticas e integrações.
Gerenciar retenção de dados, consumo, licenciamento, performance e custo operacional da ferramenta.
Atuar na definição de padrões de tagging, naming convention, organização de serviços e ambientes.
Garantir escalabilidade, disponibilidade e bom desempenho da solução de observabilidade.
3. Instrumentação e Telemetria
Implementar instrumentação automática e manual em aplicações e serviços.
Trabalhar com OpenTelemetry, SDKs, auto-instrumentation, collectors e agentes nativos.
Coletar, enriquecer e correlacionar métricas, logs e traces.
Mapear dependências entre aplicações, serviços e componentes de infraestrutura.
Apoiar times técnicos na adoção de telemetria customizada e observabilidade orientada a produtos e serviços.
4. Análise de Performance e Troubleshooting
Realizar análises aprofundadas de performance e comportamento de aplicações, considerando latência, throughput, taxa de erro e disponibilidade.
Atuar com distributed tracing, profiling, dependency mapping e investigação de incidentes.
Executar root cause analysis (RCA) em ambientes distribuídos e de missão crítica.
Apoiar o diagnóstico de falhas complexas, gargalos de desempenho e degradação de serviços.
5. Dashboards, Alertas, Notebooks e Workflows
Criar e manter dashboards operacionais, executivos e analíticos com foco em indicadores técnicos e de negócio.
Construir monitores e alertas acionáveis, reduzindo ruído e falsos positivos.
Implementar detecção de anomalias, correlação de eventos e limiares dinâmicos.
Desenvolver notebooks, consultas e investigações guiadas para análise técnica e storytelling de incidentes.
Criar workflows e automações para resposta operacional, enriquecimento de eventos e integração com processos internos.
6. Integrações, Automação e Ecossistema
Integrar Datadog ou Elasticsearch com plataformas de CMDB, ITSM, ServiceNow, Zabbix, CI/CD, webhooks, APIs e ferramentas corporativas.
Automatizar provisionamento de monitores, dashboards, alertas, tagging, onboarding de serviços e integrações.
Apoiar a integração com pipelines DevOps, observabilidade em Kubernetes e ambientes cloud.
Atuar na evolução contínua do ecossistema de observabilidade corporativa.
7. Comunicação e Suporte à Decisão
Traduzir análises técnicas em recomendações claras para públicos técnicos, gerenciais e executivos.
Apoiar tomadas de decisão com base em dados de observabilidade, confiabilidade e experiência do usuário.
Contribuir para melhoria contínua dos processos de operação, sustentação e engenharia de confiabilidade.
Venha fazer parte do time Runtalent 😉
#vemserRun! 🚀💙