Responsabilidades:
* Monitorar, manter e melhorar a infraestrutura e sistemas em produção, garantindo alta disponibilidade e escalabilidade;
* Automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura (IaC - Infrastructure as Code);
* Trabalhar em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade;
* Gerenciar ferramentas de monitoramento e alertas (Prometheus, Grafana, Datadog);
* Implementar e manter pipelines de CI/CD, garantindo eficiência no desenvolvimento e implantação de código;
* Gerenciar e otimizar o uso de recursos em cloud (AWS, GCP, Azure);
* Criar e executar planos de recuperação de desastres e garantir a continuidade dos negócios em caso de falhas;
* Colaborar na definição de SLAs e SLOs para garantir os padrões de serviço esperados.