Sobre nós:A UDS é especialista em desenvolver softwares web e aplicativos personalizados com squads ágeis.Atende marcas como Calvin Klein, DHL, C&A, Madero, SKY, Correios, Yamaha e outras.Foi reconhecida entre as três melhores desenvolvedoras de aplicativos da América Latina e detém certificação PCI-DSS.É a primeira de seu setor na Global Data Alliance junto a companhias como Panasonic, Visa, Pfizer e American Express.Descrição: - Será responsável por garantir a confiabilidade, escalabilidade e resiliência de nossas plataformas e produtos digitais, atuando de ponta a ponta em arquitetura, automação e operações.Suas principais atribuições incluem: - Disponibilidade e Performance: Garantir a disponibilidade, desempenho e escalabilidade dos sistemas e serviços em ambientes de nuvem, aplicando práticas de Site Reliability Engineering. - Observabilidade e Confiabilidade: Projetar e manter SLIs, SLOs e SLAs, criando mecanismos de monitoramento, logging e alertas proativos, prevenindo incidentes antes que afetem os usuários finais. - Automação e Entrega Contínua: Desenvolver e manter pipelines de CI/CD para automatizar deploys, testes e integrações contínuas, reduzindo riscos e aumentando a eficiência. - Gestão de Incidentes: Implementar processos de incident response e post-mortem para identificar, mitigar e aprender com falhas, garantindo melhoria contínua. - Segurança e Compliance: Implementar e manter práticas de segurança de alto nível para proteger dados e cumprir normas de privacidade e compliance (ex.: PCI-DSS, LGPD/GDPR). - Infraestrutura como Código: Utilizar ferramentas de automação e IaC (Infrastructure as Code) para provisionamento, configuração e manutenção de ambientes em AWS ou outras nuvens públicas. - Suporte e Orientação Técnica: Apoiar squads de desenvolvimento, fornecendo orientação sobre práticas de DevOps, infraestrutura e arquitetura, além de atuar como ponto técnico focal. - Otimização de Custos: Identificar oportunidades de redução de custos e otimização de recursos na infraestrutura e serviços em nuvem.Requisitos: - Conhecimentos em Inteligência Artificial aplicada a operações (AIOps), incluindo uso de modelos para detecção de anomalias, previsão de incidentes e automação inteligente de respostas. Experiência com integração de serviços de IA (ex.: APIs de modelos de linguagem), uso de pipelines de dados para treinamento/consumo de modelos e entendimento de conceitos como Machine Learning, NLP e observabilidade orientada por IA. - Experiência sólida em administração de sistemas Linux e Windows, incluindo configuração, monitoramento e troubleshooting. - Proficiência em automação e IaC, utilizando ferramentas como Terraform, Ansible ou similares. - Experiência prática em cloud computing, preferencialmente AWS (EC2, VPC, RDS, S3, CloudFront, Load Balancer). - Vivência com contêineres e orquestração (Docker, Kubernetes). - Conhecimento em serviços web e servidores (Nginx, Apache, IIS, etc.). - Experiência em monitoramento e observabilidade, usando ferramentas como Grafana, Prometheus, Zabbix, Graylog, Datadog ou similares. - Forte compreensão de práticas DevOps e SRE (SLI/SLO, capacidade de resposta a incidentes, gestão de disponibilidade). - Experiência com pipelines de CI/CD (GitLab CI, GitHub Actions, Jenkins ou similares). - Habilidades de comunicação para colaborar com times multidisciplinares e interagir com clientes. - Certificações em AWS, DevOps, Kubernetes ou áreas correlatas são altamente desejáveis.Desejáveis: - Experiência prévia em ambientes de alta disponibilidade (produtos de larga escala). - Atuação anterior em equipes de SRE ou como engenheiro responsável por confiabilidade de sistemas críticos. - Conhecimentos de FinOps para otimização de custos em cloud.Vantagens: - Programa de mentoria que te acompanha durante sua fase de adaptação;
- Vaga 100% remota;
- Acesso a cursos e certificações;
- Aulas de inglês custeada pela empresa.