Vaga
Analista SRE Sênior - Clínica Experts
Sobre a empresa
O
Clínica Experts
é uma plataforma completa de gestão para clínicas de saúde, estética e bem-estar, utilizada diariamente por mais de 7.500 clínicas e usuários. Entregamos soluções que integram agenda, prontuário, financeiro, estoque, comunicação omnichannel e inteligência artificial, garantindo eficiência e escala para operações de todos os portes.
Sobre a oportunidade
Buscamos um
Analista SRE Sênior
com forte experiência em confiabilidade, observabilidade, automação e operação em larga escala. Nossa infraestrutura é baseada em Kubernetes, GitOps, Rancher, AWS, mensageria e integrações que atendem milhares de usuários diariamente.
Você trabalhará com um time multidisciplinar responsável por garantir estabilidade, performance, segurança e resiliência em um ambiente que cresce rapidamente. Atuará diretamente na evolução das práticas de SRE, monitoramento avançado, automação e governança operacional.
Trabalhando com a gente você irá
* Garantir a confiabilidade e disponibilidade dos sistemas através de SLIs, SLOs e gestão de error budgets;
* Arquitetar e implementar soluções escaláveis, resilientes e observáveis em ambiente cloud;
* Liderar a análise e resolução de incidentes críticos, conduzindo RCAs estruturadas;
* Implementar, evoluir e manter nossa stack de observabilidade (métricas, logs, tracing, dashboards e alertas);
* Administrar e otimizar nossos clusters Kubernetes utilizando Rancher;
* Evoluir pipelines GitOps com FluxCD e automações de infraestrutura;
* Otimizar escalabilidade com Karpenter, autoscaling e estratégias de performance;
* Melhorar continuamente processos operacionais e reduzir toil;
* Atuar com segurança, redes, infraestrutura cloud e governança operacional;
* Compartilhar sua experiência com o time, influenciando boas práticas e decisões arquiteturais.
É fundamental que você conheça
* Kubernetes e operação avançada de clusters (de preferência via Rancher);
* AWS (redes, segurança, compute, storage, monitoramento e custos);
* Arquiteturas distribuídas, resiliência, HA e capacity planning;
* Práticas de SRE: SLIs, SLOs, error budgets, gestão de incidentes e RCA;
* Observabilidade (Grafana, Prometheus, Loki, Tempo, OpenTelemetry);
* GitOps (FluxCD);
* Karpenter e estratégias de autoscaling;
* Linux, redes, containers e troubleshooting avançado;
* Infraestrutura como Código (Terraform ou equivalente);
* Integração contínua e automações;
* Mais de 5 anos de experiência com operação de sistemas em produção.
Você vai se divertir mais se
* Tiver paixão por confiabilidade, automação e engenharia de plataforma;
* Gostar de investigar problemas complexos e otimizar desempenho;
* Se manter atualizado sobre práticas modernas de SRE, cloud e observabilidade;
* Tiver senso de dono e olhar crítico sobre a operação como um todo.
Será um diferencial se você
* Possuir experiência com GCP;
* Tiver vivência com mensageria (RabbitMQ, Kafka);
* Conhecer práticas de chaos engineering;
* Já tiver atuado como referência técnica ou liderança;
* Tiver experiência em ambientes SaaS de grande escala;
* Conhecer profundamente Cloudflare (WAF, Zero Trust, Workers, R2);
* For certificado em AWS, Kubernetes ou SRE.
Benefícios
* Vale Alimentação/Refeição no cartão Flash;
* Vale Transporte;
* Plano de Saúde Ambulatorial (Unimed) + Plano Odontológico (Uniodonto);
* Wellhub (Gympass) — acesso a academias, estúdios e atividades físicas;
* Guia da Alma — plataforma de terapia online e bem-estar emocional, com diversos profissionais de saúde mental;
* Auxílio-Creche;
* Seguro de Vida;
* Conexão Premiada — programa de incentivo por indicação de talentos;
* Ambiente inspirador, com foco em desenvolvimento e alta performance
Venha fazer parte do nosso Time