Experiência de trabalhar com disponibilidade e desempenho em sistemas.
O trabalho envolve colaborar com equipes de desenvolvimento para garantir que os novos serviços sejam projetados com confiabilidade e escalabilidade.
Requisitos:
* Bacharelado em Ciência da Computação ou área relacionada;
* Experiência comprovada como SRE ou em uma função similar;
* Proficiência em linguagens de script como Python, Bash, ou similar;
* Conhecimento profundo de sistemas operacionais Linux/Windows;
* Experiência com ferramentas de monitoramento e alerta (Prometheus, Grafana, etc.);
* Habilidades avançadas de resolução de problemas e análise de desempenho;
* Experiência com infraestrutura como código (Terraform, Ansible);
* Experiência com bancos de dados SQL e NoSQL;
* Experiência com Kubernetes e Docker.
Diferenciais:
* Conhecimento de práticas de DevOps e CI/CD;
* Certificações relevantes (ex.: Google Cloud Professional SRE);
* Familiaridade com serviços de nuvem (AWS e ou Azure);
* Conhecimento de redes e segurança.
Principais atividades:
* Projetar, implementar e manter sistemas de monitoramento e alerta para garantir a disponibilidade e desempenho do ambiente;
* Automatizar processos operacionais para melhorar de acordo com a necessidade do time de desenvolvimento;
* Colaborar com equipes de desenvolvimento para garantir que os novos serviços sejam projetados com confiabilidade e escalabilidade;
* Realizar análises de causa raiz e implementar soluções permanentes para problemas recorrentes;
* Participar de revisões de arquitetura e design para garantir que as melhores práticas de SRE sejam seguidas;
* Estar conectado com a comunidade;
* Propor novos testes de ferramentas e tecnologias;
* Desenvolver e manter documentação técnica detalhada;
* Apoio no desenvolvimento e administração de ambientes híbridos (cloud e on premises);
* Administração e experimentação de ambientes de desenvolvimento, data science e engenharia de dados.