Engenheiro de confiabilidade de sistema

Natal

beBee Careers

Anunciada dia 15 junho

Descrição

A segurança e confiabilidade de nossos sistemas são fundamentais para o sucesso em nossa missão.

Descrição do cargo

O nosso sistema de monitoramento é composto por uma série de componentes, incluindo ferramentas de monitoramento e alertas (Prometheus, Grafana, Datadog), que garantem a detecção e resolução rápida de problemas técnicos.

Além disso, trabalhamos em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade.

Nossa infraestrutura como código (IaC) está baseada em Terraform, Ansible, Puppet ou Chef, permitindo que possamos automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura de forma eficiente.

Criamos e executamos planos de recuperação de desastres e garantimos a continuidade dos negócios em caso de falhas. Nossa equipe de engenharia é responsável pela gestão e otimização do uso de recursos em cloud (AWS, GCP, Azure).

Para garantir a segurança e privacidade de nossos usuários, implementamos políticas rigorosas de segurança e devsecops.

Estruturamos nosso time em torno de princípios como diversidade, inclusão e comprometimento com a excelência.

Conhecemos os benefícios de trabalhar em ambientes híbridos, onde podemos aproveitar as vantagens das nuvens públicas e privadas para atender às necessidades de nossos clientes.

Responsabilidades

* Manter e melhorar a infraestrutura e sistemas em produção, garantindo alta disponibilidade e escalabilidade;
* Automatizar processos de deploy, provisionamento e gerenciamento de infraestrutura (IaC - Infrastructure as Code);
* Trabalhar em conjunto com as equipes de desenvolvimento para identificar gargalos e falhas e implementar soluções de confiabilidade;
* Gerenciar ferramentas de monitoramento e alertas (Prometheus, Grafana, Datadog);
* Implementar e manter pipelines de CI / CD, garantindo eficiência no desenvolvimento e implantação de código;
* Gerenciar e otimizar o uso de recursos em cloud (AWS, GCP, Azure);
* Criar e executar planos de recuperação de desastres e garantir a continuidade dos negócios em caso de falhas;
* Colaborar na definição de SLAs e SLOs para garantir os padrões de serviço esperados.

Habilidades e experiências requeridas

* Experiência sólida com infraestrutura e automação, utilizando ferramentas como Terraform, Ansible, Puppet ou Chef;
* Proficiência em linguagens de programação como Python, Go, Bash ou Ruby para automação de tarefas;
* Experiência com ferramentas de monitoramento e observabilidade (Prometheus, Grafana, ELK Stack);
* Conhecimento profundo em plataformas de cloud computing (AWS, GCP, Azure);
* Familiaridade com bancos de dados (SQL e NoSQL), com foco em escalabilidade e performance;
* Experiência com conteners e orquestração (Docker, Kubernetes);
* Inglês para comunicação integral (leitura e escrita).
* Certificações em cloud computing ou SRE (AWS Certified Solutions Architect, Google Professional Cloud Architect, etc.);
* Conhecimento de práticas de segurança e devsecops;
* Experiência com infraestrutura como código em ambientes híbridos;
* Familiaridade com redes e protocolos de comunicação (TCP / IP, HTTP, DNS).

Benefícios

* Assistência médica;
* VR e VA flexível;
* Gympass e Wellz;
* Descontos em restaurantes;
* Descontos em cursos técnicos e de ensino superior;
* Descontos em escolas e plataformas de idiomas.

Outros

Também oferecemos um ambiente de trabalho dinâmico e estimulante, com oportunidades de crescimento e desenvolvimento profissional.

Se candidatar

Criar um alerta

Salvar