Um Engenheiro de Confiabilidade em Sites trabalha no desenvolvimento e manutenção de sistemas escaláveis e disponíveis.
Responsabilidades:
* Desenvolver soluções para melhorar a infraestrutura e sistemas em produção;
* Automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura utilizando ferramentas como Terraform, Ansible ou Puppet;
* Trabalhar em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade;
* Gerenciar ferramentas de monitoramento e alertas, como Prometheus, Grafana e Datadog;
* Implementar e manter pipelines de CI/CD para garantir eficiência no desenvolvimento e implantação de código;
* Gerenciar e otimizar o uso de recursos em cloud (AWS, GCP, Azure);
* Criar e executar planos de recuperação de desastres e garantir a continuidade dos negócios em caso de falhas;
* Colaborar na definição de SLAs e SLOs para garantir os padrões de serviço esperados;
Conhecimentos e Experiências Necessários:
* Experiência sólida com infraestrutura e automação;
* Proficiência em linguagens de programação como Python, Go, Bash ou Ruby para automação de tarefas;
* Experiência com ferramentas de monitoramento e observabilidade;
* Conhecimento profundo em plataformas de cloud computing;
* Familiaridade com bancos de dados (SQL e NoSQL), com foco em escalabilidade e performance;
* Experiência com contêineres e orquestração (Docker, Kubernetes);
* Inglês fluente para comunicação integral;
Diferenciais:
* Certificações em cloud computing ou SRE;
* Conhecimento de práticas de segurança e devsecops;
* Experiência com infraestrutura como código em ambientes híbridos;
* Familiaridade com redes e protocolos de comunicação;