**Solução de Problemas em Observabilidade**
Nossa empresa está procurando por um profissional qualificado para ocupar o cargo de Especialista em Solução de Problemas em Observabilidade.
O candidato ideal é uma pessoa que tenha habilidades excepcionais em solucionar problemas complexos e que possa trabalhar de forma independente. É importante ter conhecimento em ferramentas como Zabbix, Elastic Stack e Dynatrace, além de experiência em engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos.
Ao longo da carreira, é esperado que o profissional tenha contribuído significativamente para a evolução das práticas de observabilidade em sua equipe ou organização anterior.
É fundamental ter uma abordagem estratégica na resolução de problemas, tendo em mente as necessidades e objetivos da empresa. Além disso, é essencial manter-se atualizado sobre as melhores práticas e tecnologias disponíveis no mercado.
Atividades:
* Implementar e melhorar a plataforma de observabilidade;
* Definir e padronizar painéis e alertas para serviços críticos;
* Estabelecer indicadores de confiabilidade e orientar decisões técnicas com base em dados;
* Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas;
* Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua;
* Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas;
* Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações;
* Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações;
* Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas;
* Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
Principais Conhecimentos:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace;
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos;
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio;
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares;
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker);
* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps;
* Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell);
* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis);
* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists);
* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade.
Perfil Acadêmico e Habilidades:
* Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
* Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
* Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
* Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
* Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
* Capacidade de correlacionar dados de observabilidade com impacto no negócio;
* Experiência com cloud computing (AWS, Azure, GCP) e orquestração de contêineres (Kubernetes);
* Fluência em automação com linguagens como Python, Shell Script, Go ou similares;
* Excelente comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas;
* Visão sistêmica, senso crítico e iniciativa para liderar projetos de melhoria contínua.
],