Sobre nós:
A UDS é especialista em desenvolver softwares web e aplicativos personalizados com squads ágeis.
Atende marcas como Calvin Klein, DHL, C&A, Madero, SKY, Correios, Yamaha e outras.
Foi reconhecida entre as três melhores desenvolvedoras de aplicativos da América Latina e detém certificação PCI-DSS.
É a primeira de seu setor na Global Data Alliance junto a companhias como Panasonic, Visa, Pfizer e American Express.
Descrição:
• Será responsável por garantir a confiabilidade, escalabilidade e resiliência de nossas plataformas e produtos digitais, atuando de ponta a ponta em arquitetura, automação e operações.
Suas principais atribuições incluem:
• Disponibilidade e Performance: Garantir a disponibilidade, desempenho e escalabilidade dos sistemas e serviços em ambientes de nuvem, aplicando práticas de Site Reliability Engineering.
• Observabilidade e Confiabilidade: Projetar e manter SLIs, SLOs e SLAs, criando mecanismos de monitoramento, logging e alertas proativos, prevenindo incidentes antes que afetem os usuários finais.
• Automação e Entrega Contínua: Desenvolver e manter pipelines de CI/CD para automatizar deploys, testes e integrações contínuas, reduzindo riscos e aumentando a eficiência.
• Gestão de Incidentes: Implementar processos de incident response e post-mortem para identificar, mitigar e aprender com falhas, garantindo melhoria contínua.
• Segurança e Compliance: Implementar e manter práticas de segurança de alto nível para proteger dados e cumprir normas de privacidade e compliance (ex.: PCI-DSS, LGPD/GDPR).
• Infraestrutura como Código: Utilizar ferramentas de automação e IaC (Infrastructure as Code) para provisionamento, configuração e manutenção de ambientes em AWS ou outras nuvens públicas.
• Suporte e Orientação Técnica: Apoiar squads de desenvolvimento, fornecendo orientação sobre práticas de DevOps, infraestrutura e arquitetura, além de atuar como ponto técnico focal.
• Otimização de Custos: Identificar oportunidades de redução de custos e otimização de recursos na infraestrutura e serviços em nuvem.
Requisitos:
• Conhecimentos em Inteligência Artificial aplicada a operações (AIOps), incluindo uso de modelos para detecção de anomalias, previsão de incidentes e automação inteligente de respostas. Experiência com integração de serviços de IA (ex.: APIs de modelos de linguagem), uso de pipelines de dados para treinamento/consumo de modelos e entendimento de conceitos como Machine Learning, NLP e observabilidade orientada por IA.
• Experiência sólida em administração de sistemas Linux e Windows, incluindo configuração, monitoramento e troubleshooting.
• Proficiência em automação e IaC, utilizando ferramentas como Terraform, Ansible ou similares.
• Experiência prática em cloud computing, preferencialmente AWS (EC2, VPC, RDS, S3, CloudFront, Load Balancer).
• Vivência com contêineres e orquestração (Docker, Kubernetes).
• Conhecimento em serviços web e servidores (Nginx, Apache, IIS, etc.).
• Experiência em monitoramento e observabilidade, usando ferramentas como Grafana, Prometheus, Zabbix, Graylog, Datadog ou similares.
• Forte compreensão de práticas DevOps e SRE (SLI/SLO, capacidade de resposta a incidentes, gestão de disponibilidade).
• Experiência com pipelines de CI/CD (GitLab CI, GitHub Actions, Jenkins ou similares).
• Habilidades de comunicação para colaborar com times multidisciplinares e interagir com clientes. • Certificações em AWS, DevOps, Kubernetes ou áreas correlatas são altamente desejáveis.
Desejáveis:
• Experiência prévia em ambientes de alta disponibilidade (produtos de larga escala).
• Atuação anterior em equipes de SRE ou como engenheiro responsável por confiabilidade de sistemas críticos.
• Conhecimentos de FinOps para otimização de custos em cloud.
Vantagens:
• Programa de mentoria que te acompanha durante sua fase de adaptação;
• Vaga 100% remota;
• Acesso a cursos e certificações;
• Aulas de inglês custeada pela empresa.