Descrição do Cargo
O cargo de Coordenadora de SRE (Site Reliability Engineering) é responsável por liderar iniciativas de confiabilidade, automação, escalabilidade e observabilidade em ambientes críticos. Este profissional será responsável por garantir a excelência operacional dos nossos sistemas.
Responsabilidades:
* Liderar a equipe de SRE, definindo prioridades, estratégias e garantindo alinhamento com os objetivos da organização.
* Projetar, implementar e manter arquiteturas escaláveis, resilientes e seguras na AWS, com domínio de serviços como EC2, EKS, Lambda, S3, VPC, Route 53, IAM, API Gateway, ALB/NLB, RDS, DynamoDB, além de práticas com CloudWatch, CloudTrail, CloudFormation e Terraform.
* Promover automação contínua de infraestrutura e operações por meio de práticas modernas de IaC.
* Construir e manter pipelines de CI/CD com GitHub, GitHub Actions e Argo CD.
* Estruturar e evoluir soluções robustas de monitoramento e observabilidade, com foco em desempenho, disponibilidade e experiência do usuário.
* Atuar na gestão de incidentes, análise de causa raiz e implementação de ações corretivas e preventivas.
* Colaborar com times de engenharia e produto para garantir a confiabilidade e a escalabilidade das soluções.
Requisitos e Qualificações:
* Experiência prévia como coordenador técnico ou tech lead.
* Visão abrangente de arquitetura de cloud, com forte domínio dos principais serviços da AWS.
* Experiência em DevOps, com atuação em pipelines, automações, fluxos de deploy e suas diretivas.
* Conhecimento prático em GitHub, GitHub Actions, Argo CD e ferramentas de IaC como Terraform ou CloudFormation.
* Experiência com soluções de monitoramento e observabilidade; diferencial o uso de Datadog.
* Perfil analítico, com capacidade de diagnosticar e resolver problemas complexos.
* Forte senso de dono, proatividade e criticidade na tomada de decisões.
* Disponibilidade e comprometimento com a operação contínua de ambientes de missão crítica.