Descrição da vaga
A FCamara está em busca de uma pessoa SRE Pleno. Essa pessoa atuará no time de MLOps, responsável por garantir a confiabilidade, escalabilidade e eficiência da infraestrutura que suporta os modelos e pipelines de Machine Learning em produção. Trabalhamos em um ambiente colaborativo, com forte cultura de engenharia e incentivo ao desenvolvimento contínuo. Tudo isso em uma empresa líder no mercado brasileiro de farmácia, referência em Saúde e Bem-estar com mais 3.000 lojas em todos os estados brasileiros.
Responsabilidades e atribuições
Responsabilidades:
* Implementar e manter infraestrutura como código utilizando Terraform, seguindo padrões e boas práticas já estabelecidos pelo time.
* Operar e dar manutenção em clusters Kubernetes, utilizando Helm e práticas de GitOps para suporte à entrega contínua de aplicações.
* Atuar na operação do dia a dia de ambientes AWS, contribuindo para a disponibilidade e estabilidade das plataformas.
* Apoiar o diagnóstico de problemas de rede em cloud providers, atuando em conjunto com membros mais sêniores do time em cenários mais complexos.
* Manter pipelines de CI/CD com GitLab, colaborando com times de desenvolvimento e dados.
* Acompanhar e utilizar ferramentas de monitoramento e observabilidade (Prometheus, Grafana, Datadog) para identificar anomalias e apoiar a resposta a incidentes.
* Participar de processos de resposta a incidentes e post-mortems, contribuindo com análises e implementação de melhorias.
* Apoiar iniciativas de FinOps, auxiliando na identificação de oportunidades de otimização de custos na nuvem.
Requisitos e qualificações
Requisitos Técnicos
Obrigatórios
* Experiência prática com Terraform para gerenciamento de infraestrutura como código.
* Conhecimento sólido em AWS.
* Conhecimento intermediário em Kubernetes, incluindo uso de Helm e fluxos GitOps.
* Conhecimento intermediário em GitLab (pipelines, CI/CD, repositórios).
* Capacidade de diagnóstico em redes em ambientes cloud (VPC, security groups, DNS, load balancers, etc.).
* Bom domínio de Linux e administração de sistemas.
* Familiaridade com ferramentas de observabilidade: Prometheus, Grafana e Datadog.
Diferenciais:
* Conhecimento introdutório de práticas de FinOps em ambientes cloud.
* Experiência ou interesse em ambientes de MLOps ou Data EngineeringPerfil comportamental
* Boa capacidade de resolução de problemas e raciocínio analítico, com vontade de evoluir em cenários de infraestrutura e sistemas distribuídos.
* Comunicação clara e facilidade para trabalhar em equipe multidisciplinar.
* Perfil com senso de dono, proativo e aberto a aprender com o time.