Buscamos uma pessoa apaixonada por tecnologia para se juntar a nossa equipe como Especialista SRE.
Nossa empresa conecta profissionais talentosos às melhores vagas. Se você é um especialista em soluções de infraestrutura e serviços, com foco em monitoramento e observação de sistemas, esta oportunidade pode ser o que você está procurando.
Como Especialista SRE, sua responsabilidade será garantir a disponibilidade, desempenho e escalabilidade dos nossos sistemas.
Para isso, você precisará possuir habilidades técnicas sólidas em áreas como engenharia de confiabilidade, monitoramento de ambientes distribuídos e gestão de incidentes críticos. Além disso, é fundamental ter domínio técnico em ferramentas como Zabbix, Elastic Stack e Dynatrace.
A empresa busca alguém que atue de forma estratégica, proponha padrões técnicos, eleve a maturidade dos nossos sistemas e dissemine boas práticas de visibilidade, performance e resiliência em toda a organização. O candidato ideal é colaborativo, analítico, orientado a resultados e com forte senso de dono, sempre alinhado aos valores da empresa.
As principais atividades incluem:
1. Liderar a implementação e evolução da plataforma de observabilidade, consolidando logs, métricas e traces.
2. Definir, padronizar e manter painéis e alertas para serviços críticos da organização.
3. Estabelecer e acompanhar indicadores de confiabilidade (SLIs, SLOs), orientando decisões técnicas com base em dados.
4. Automatizar respostas a alertas e reduzir o toil por meio de scripts e integrações entre ferramentas.
5. Atuar na gestão de incidentes: triagem, coordenação de resolução, documentação e melhoria contínua.
6. Apoiar squads de produto e infraestrutura na análise de performance e comportamento dos sistemas.
7. Desenvolver e disseminar boas práticas de observabilidade nos ciclos de desenvolvimento e operações.
8. Conduzir treinamentos técnicos sobre métricas, rastreamento e diagnóstico de aplicações.
9. Evoluir continuamente o processo de detecção proativa e resposta rápida a falhas.
10. Apoiar auditorias e relatórios técnicos com dados precisos de disponibilidade e incidentes.
Principais conhecimentos e habilidades:
* Observabilidade ponta a ponta com Zabbix, Elastic Stack (Elasticsearch, Logstash, Kibana) e Dynatrace.
* Criação, padronização e manutenção de dashboards operacionais, executivos e técnicos.
* Implementação e monitoramento de SLIs, SLOs e SLAs alinhados a objetivos de negócio.
* Rastreamento distribuído (Distributed Tracing) com Dynatrace, OpenTelemetry, Jaeger ou similares.
* Monitoramento de ambientes em nuvem (AWS, Azure) e conteinerizados (Kubernetes, Docker).
* Integração com ferramentas de alerta e resposta a incidentes: Opsgenie, PagerDuty, VictorOps.
* Automação de processos operacionais e scripts para coleta e análise de dados (Python, Shell, PowerShell).
* Participação ativa em war rooms, execução de post-mortems e condução de RCA (Root Cause Analysis).
* Criação e manutenção de documentação operacional (runbooks, playbooks, checklists).
* Colaboração com times de desenvolvimento, infraestrutura e produto para antecipação de riscos e padronização de visibilidade.
Requisitos:
Formação em Ciência da Computação, Engenharia, Sistemas de Informação ou áreas correlatas;
Experiência sólida e comprovada como SRE, Observability Engineer ou DevOps com foco em monitoramento;
Domínio técnico de Zabbix, Elastic Stack e Dynatrace em ambientes de missão crítica;
Forte entendimento de arquitetura de sistemas distribuídos e métricas operacionais;
Vivência com rastreamento distribuído e integração de logs/métricas em pipelines CI/CD;
Capacidade de correlacionar dados de observabilidade com impacto no negócio;
Experiência com cloud computing (AWS, Azure, GCP) e orquestração de contêineres (Kubernetes);
Fluência em automação com linguagens como Python, Shell Script, Go ou similares.
Comunicação, organização e capacidade de trabalho colaborativo com múltiplas áreas;
Visão sistêmica, senso crítico e iniciativa para liderar projetos de melhoria contínua. Qualificações Desejáveis: Certificações em observabilidade e confiabilidade: Dynatrace Associate, Zabbix Certified, Elastic Observability, SRE Foundation.; Conhecimento em Prometheus, Grafana, Loki e OpenTelemetry.; Experiência com Chaos Engineering e validação de resiliência.; Participação em incidentes críticos com liderança técnica na resposta.; Vivência com arquitetura de microserviços e desafios de visibilidade em ambientes distribuídos.; Experiência com automação de runbooks e fluxos de resposta a incidentes.; Familiaridade com práticas de FinOps e eficiência operacional em observabilidade.; Participação em comunidades técnicas de SRE, DevOps e observabilidade.; Contribuições para ferramentas ou boas práticas open source.; Inglês técnico para leitura, escrita e participação em fóruns internacionais;