Missão do cargo - Projetar, implementar e gerenciar soluções que garantam a visibilidade, o desempenho e a confiabilidade dos sistemas e aplicações. Identificar de forma proativa problemas, análise de métricas e melhoria contínua da infraestrutura de TI.
O QUE VOCÊ VAI FAZER:
* Definir e implementar estratégias de monitoramento e observabilidade para aplicações e infraestrutura de TI;
* Criar e configurar dashboards, alertas e relatórios para análise de desempenho e detecção de anomalias;
* Trabalhar em conjunto com equipes de DevOps, SRE e engenharia para aprimorar a observabilidade das aplicações e serviços;
* Implementar e otimizar soluções de tracing distribuído, como OpenTelemetry e Jaeger;
* Realizar análise de causa raiz de incidentes e propor melhorias contínuas;
* Automatizar processos de monitoramento para reduzir esforço manual e aumentar a eficiência operacional;
* Garantir a conformidade com boas práticas de governança e segurança da informação.
O QUE ESPERAMOS DE VOCÊ:
* Experiência prática com implantação e sustentação de ferramentas de monitoramento e observabilidade (Zabbix + Grafana);
* Ter tido experiência prática com implantação e sustentação de ao menos uma das ferramentas de monitoramento, como Prometheus, Datadog, New Relic, Dynatrace, Elastic Stack (ELK), Splunk entre outras;
* Conhecimento avançado em métricas, logs, tracing e análise de eventos;
* Experiência cominfraestrutura em nuvem (AWS, Azure, Google Cloud) e monitoramento de serviços cloud-native;
* Conhecimento emKubernetes e monitoramento de clusters;
* Habilidade em linguagens de script, como Python, Bash ou PowerShell;
* Familiaridade com metodologias DevOps e SRE (Site Reliability Engineering);
* Experiência comCI/CD e automação de processos;
* Capacidade de diagnosticar problemas complexos de performance e latência.
SERIA LEGAL SE TIVESSE:
* AWS Certified Cloud Practitioner / AWS Certified DevOps Engineer;
* Microsoft Certified:
Azure Administrator Associate / Azure DevOps Engineer Expert;
* Google Cloud Professional Cloud DevOps Engineer;
* Certified Kubernetes Administrator (CKA);
* Splunk Core Certified User / Splunk Certified Admin;
* New Relic Certified Performance Pro;
* Datadog Certification (Observability Foundations / APM & Distributed Tracing);
* Elastic Certified Observability Engineer;
* ITIL FoundationCertification (para melhores práticas em gestão de serviços).