A principal responsabilidade da função de Site Reliability Engineer é garantir a disponibilidade e escalabilidade dos sistemas em produção.
Para isso, é necessário monitorar e manter a infraestrutura atual, identificar gargalhos e falhas e implementar soluções de confiabilidade.
O engenheiro de SRE também deve trabalhar em conjunto com as equipes de desenvolvimento para automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura.
Além disso, é importante gerenciar ferramentas de monitoramento e alertas, como Prometheus, Grafana e Datadog, e implementar e manter pipelines de CI/CD para garantir eficiência no desenvolvimento e implantação de código.
Conhecimentos e Experiências
* Experiência sólida com infraestrutura e automação, utilizando ferramentas como Terraform, Ansible, Puppet ou Chef;
* Proficiência em linguagens de programação como Python, Go, Bash ou Ruby para automação de tarefas;
* Experiência com ferramentas de monitoramento e observabilidade (Prometheus, Grafana, ELK Stack);
* Conhecimento profundo em plataformas de cloud computing (AWS, GCP, Azure);
* Familiaridade com bancos de dados (SQL e NoSQL), com foco em escalabilidade e performance;
* Experiência com contêineres e orquestração (Docker, Kubernetes);
Diferenciais
* Certificações em cloud computing ou SRE (AWS Certified Solutions Architect, Google Professional Cloud Architect, etc.);
* Conhecimento de práticas de segurança e devsecops;
* Experiência com infraestrutura como código em ambientes híbridos;
* Familiaridade com redes e protocolos de comunicação (TCP/IP, DNS).
Além disso, o candidato deve ter uma boa compreensão do conceito de 'infrastructure as code' e ser capaz de utilizar ferramentas como Terraform para definir e gerenciar a infraestrutura.
A experiência em orquestração de contêineres e uso de ferramentas como Docker e Kubernetes é fundamental para garantir a escalabilidade e disponibilidade dos sistemas.
É importante lembrar que a área de SRE está constantemente evoluindo e é necessário estar atualizado sobre as melhores práticas e tecnologias disponíveis.