IT Specialist (Arquitetura Observabilidade/SRE) Country: Brazil QUEM SOMOS A F1RST é o futuro e sua carreira está aqui! Nossa cultura é baseada em “Pessoas, Inovação e Resultados”. Aqui promovemos serviços e experiência para os mais de 60 milhões de clientes de todo o ecossistema Santander. Venha fazer parte do time que tem como propósito apoiar as pessoas e fazer os negócios prosperarem. Somos apaixonados por tecnologia. Somos F1RST Digital Services. Siga o nosso LinkedIn e fique por dentro de todas as novidades: https://www.linkedin.com/company/f1rstdigitalservices Temos uma vaga para você se tornar Especialista em Observabilidade/SRE. Aqui, seu papel será: - Definir, implementar e evoluir padrões de observabilidade para aplicações e infraestrutura - Implantar e sustentar stacks de monitoramento e tracing (Prometheus, Grafana, Dynatrace, OTEL, Jaeger, ELK/Kibana) - Gerenciar e otimizar clusters Kubernetes (EKS) com Service Mesh (Istio), garantindo visibilidade e controle de tráfego entre serviços - Administrar e evoluir plataformas de mensageria (Kafka e RabbitMQ), assegurando disponibilidade, performance e confiabilidade - Atuar na definição de padrões de instrumentação de aplicações com OpenTelemetry - Monitorar e analisar métricas, logs e traces para antecipação de incidentes e melhoria contínua - Realizar troubleshooting em ambientes distribuídos, identificando gargalos de performance e falhas de comunicação entre serviços - Apoiar squads de desenvolvimento na adoção de boas práticas de observabilidade e arquitetura orientada a eventos - Automatizar provisionamento e gestão de recursos via Operators no Kubernetes - Documentar arquiteturas, padrões técnicos e procedimentos operacionais Requisitos Imprescindíveis: - Conhecimentos avançados em Observabilidade: implementação e sustentação de métricas, logs e tracing distribuído em arquiteturas cloud-native - Experiência com ferramentas de Monitoramento: Dynatrace, Grafana, Prometheus e Kibana, incluindo configuração de dashboards, alertas, SLO/SLI e troubleshooting - Conhecimentos em Observability Tools: OpenTelemetry (OTEL) para instrumentação de aplicações e Jaeger para análise de traces distribuídos - Experiência sólida com Kubernetes (EKS): administração de clusters, troubleshooting, tuning de recursos, gestão de namespaces e políticas - Conhecimentos em Service Mesh: Istio, incluindo controle de tráfego, mTLS, políticas de segurança, observabilidade de serviços e gerenciamento de sidecars - Experiência com plataformas de mensageria: Apache Kafka (Confluent), incluindo uso de ferramentas como Kafdrop para inspeção e troubleshooting, e RabbitMQ (Amazon MQ) - Conhecimentos em operadores (Operators) no Kubernetes para automação de deploy e gestão de workloads stateful (ex: Kafka Operator, RabbitMQ Operator) - Experiência em arquitetura orientada a eventos (EDA) e microsserviços, incluindo padrões como pub/sub, consumer groups, DLQ e retry strategies - Conhecimentos em troubleshooting avançado de performance e latência em ambientes distribuídos - Experiência com gestão de incidentes, análise de causa raiz (RCA) e definição de planos de ação preventivos Requisitos Desejáveis: - Certificações em Kubernetes (CKA, CKAD) ou especializações em observabilidade - Conhecimento e uso prático de ferramentas de IA de mercado para aumento de produtividade como Devin, Claude, Cursor, ChatGPT Enterprise, GitHub Copilot, entre outras - Experiência com gestão de capacidade e performance tuning em clusters Kafka e RabbitMQ - Conhecimentos em estratégias de alta disponibilidade e disaster recovery para plataformas de mensageria - Experiência com integração de métricas e traces em pipelines de CI/CD - Conhecimentos em segurança em Kubernetes e Service Mesh (mTLS, RBAC, policies) - Experiência com ambientes multi-cluster e multi-region - Inglês e espanhol avançado para interação com times globais Local de trabalho: Geração Digital – Av Interlagos, 3501 – Interlagos, São Paulo - SP BENEFÍCIOS: ➡️ Auxílio refeição; ➡️ Convênio médico; ➡️ Convênio Odontológico: Plano básico e intermediário; ➡️ Vale Transporte; ➡️ Flex Férias: 24 dias úteis de férias podendo ser divididos em até 6 vezes, e a cada 2 meses trabalhados você já pode aproveitar 4 dias úteis; ➡️ DayOff Aniversário; ➡️ Programa de Participação nos Resultados (PPR); ➡️ Parceiros de academia: Wellhub, Totalpass; ➡️ Flex Working: Modelo de trabalho híbrido: 2 dias Home Office e 3 dias presenciais; ➡️ Plataformas de treinamento com mais de 100 mil cursos; ➡️ Linhas de carreira para o seu desenvolvimento profissional; ➡️ Flex Learning: Incentivo para estudos exclusivo a funcionários com Alta Performance; ➡️ Auxílio Creche; ➡️ Programa Nascer e Licença Paternidade estendida; ➡️ Seguro de vida; ➡️ Programa Nascer; ➡️ Be Healthy - Programa que incentiva todos a terem hábitos mais saudáveis; ➡️ PAPE - Programa de apoio pessoal especializado; LI-Hybrid