Responsabilidades
Abaixo estão as principais responsabilidades para a posição:
1. Monitorar, manter e melhorar a infraestrutura e sistemas em produção, garantindo alta disponibilidade e escalabilidade;
2. Automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura (IaC - Infrastructure as Code);
3. Trabalhar em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade;
4. Gerenciar ferramentas de monitoramento e alertas (Prometheus, Grafana, Datadog);
5. Implementar e manter pipelines de CI/CD, garantindo eficiência no desenvolvimento e implantação de código;
6. Gerenciar e otimizar o uso de recursos em cloud (AWS, GCP, Azure);
7. Criar e executar planos de recuperação de desastres e garantir a continuidade dos negócios em caso de falhas;
8. Colaborar na definição de SLAs e SLOs para garantir os padrões de serviço esperados.
Conhecimentos e Experiências
Aqui estão os conhecimentos e experiências necessários:
1. Experiência sólida com infraestrutura e automação, utilizando ferramentas como Terraform, Ansible, Puppet ou Chef;
2. Proficiência em linguagens de programação como Python, Go, Bash ou Ruby para automação de tarefas;
3. Experiência com ferramentas de monitoramento e observabilidade (Prometheus, Grafana, ELK Stack);
4. Conhecimento profundo em plataformas de cloud computing (AWS, GCP, Azure);
5. Familiaridade com bancos de dados (SQL e NoSQL), com foco em escalabilidade e performance;
6. Experiência com contêineres e orquestração (Docker, Kubernetes);
7. Inglês para comunicação integral (leitura e escrita).
Diferenciais
E aqui estão os diferenciais que podem ser vantajosos:
1. Certificações em cloud computing ou SRE (AWS Certified Solutions Architect, Google Professional Cloud Architect, etc.);
2. Conhecimento de práticas de segurança e devsecops;
3. Experiência com infraestrutura como código em ambientes híbridos;
4. Familiaridade com redes e protocolos de comunicação (TCP/IP, DNS).