Analista de Site Reliability Engineer (SRE) Já pensou em fazer parte de uma empresa Great Place to Work com a melhor solução para comércio exterior do mercado? Confira agora as responsabilidades e os requisitos para a vaga. RESPONSABILIDADES E ATRIBUIÇÕES Atuar em todo o ciclo de vida dos serviços, desde a concepção até a operação, incluindo criação e manutenção de pipelines de CI/CD e processos de deploy;
Monitorar e medir a disponibilidade, latência e integridade dos sistemas produtivos, definindo e acompanhando SLIs, SLOs e alertas;
Reduzir esforços operacionais repetitivos (toil) por meio da automação, priorizando soluções que aumentem a resiliência e a escalabilidade dos sistemas;
Colaborar com as equipes de desenvolvimento na adoção de boas práticas de engenharia, segurança e infraestrutura como código;
Atuar na sustentação e evolução de serviços críticos, garantindo alta disponibilidade e desempenho;
Realizar troubleshooting em ambientes produtivos, investigando e solucionando incidentes de forma eficiente;
Apoiar na implementaçãoe evolução de práticas de observabilidade, garantindo visibilidade dos sistemas;
Contribuir para a construção de sistemas resilientes e escaláveis por design. REQUISITOS E QUALIFICAÇÕES Experiência com ferramentas de monitoramento e observabilidade, como Zabbix, Grafana, Datadog ou ELK Stack;
Conhecimento em ambientes Cloud, especialmente Microsoft Azure;
Experiência com CI/CD eversionamento, utilizando ferramentas como Azure DevOps e Git;
Conhecimento em infraestrutura como código (IaC), utilizando ferramentas como Terraform e Ansible;
Conhecimento em redes (TCP/IP, VPN, Proxy);
Experiência com sistemas operacionais Linux e Windows (IIS);
Vivência com troubleshooting e análise de incidentes em ambientes produtivos. DESEJÁVEL Experiência com diagnóstico de problem