A função de Engenheiro de Confiabilidade em Site envolve monitorar e manter a infraestrutura e sistemas em produção, garantindo alta disponibilidade e escalabilidade.
Seus principais responsabilidades incluem automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura, trabalhar em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade, gerenciar ferramentas de monitoramento e alertas, implementar e manter pipelines de CI/CD e gerenciar e otimizar o uso de recursos em cloud.
Também é necessário criar e executar planos de recuperação de desastres e garantir a continuidade dos negócios em caso de falhas, colaborar na definição de SLAs e SLOs para garantir os padrões de serviço esperados.
No que diz respeito a habilidades e experiências necessárias, é importante ter uma experiência sólida com infraestrutura e automação, utilizando ferramentas como Terraform, Ansible, Puppet ou Chef.
Também é importante ter proficiência em linguagens de programação como Python, Go, Bash ou Ruby para automação de tarefas e experiência com ferramentas de monitoramento e observabilidade, como Prometheus, Grafana e ELK Stack.
O conhecimento profundo em plataformas de cloud computing, como AWS, GCP e Azure, é fundamental, assim como familiaridade com bancos de dados SQL e NoSQL e experiência com contêineres e orquestração, como Docker e Kubernetes.
Além disso, é importante ter inglês fluente para comunicação integral e certificações em cloud computing ou SRE são um diferencial.