Tech Lead SRE Country: Brazil Para essa posição, técnicamente é esperado que você (Hard Skill): 1. Governança de Confiabilidade e Performance Conduzir as definição e gestão de SLIs, SLOs e Error Budgets para serviços críticos de Tier 1. Capacidade de monitorar e otimizar métricas de performance, como latência p95 (alvo < 200ms) e taxas de erro em tempo real. Experiência prática na redução de Toil através de automação inteligente e refinamento de alertas para diminuir o ruído operacional em 30%. Vivência em ambientes com OpenTelemetry (OTel) 2. Infraestrutura e Cloud Engineering Proficiência em arquitetura de nuvem (Azure/AWS) e automação de pipelines para criação e patching de Golden Images. Sólidos conhecimentos em Terraform para provisionamento de infraestrutura multicloud (Azure/AWS). Kubernetes (AKS/EKS): Domínio profundo de orquestração de containers, incluindo Service Mesh (Istio ou Linkerd) para controle de tráfego. Proficiência em Python (preferencial para IA/Automação) ou Go. Frameworks de Agentes: Conhecimento em LangChain ou CrewAI para estruturar agentes que consomem documentação técnica e executam scripts de automação. 3. Gestão de Incidentes e Segurança Habilidade para liderar post-mortems e reduzir o MTTR (Mean Time to Repair) através de planos de ação estruturados. Conhecimento em segurança para garantir a conformidade de vulnerabilidades (CVEs) em contratos de API e imagens de sistema. Mentalidade de Habilitação (Enabling Mindset) Para essa posição, é esperado que você tenha a seguinte facilidade (Soft Skill): 1. Foco no Onboarding: Capacidade de conduzir as fases de Engajamento, Análise e Treinamento para que os Fusion Teams aprendam a operar seus próprios serviços. Empatia Técnica: Entender as dores dos desenvolvedores para reduzir o TTFC (Time to First Call) e melhorar a experiência geral da plataforma. 2. Liderança Técnica e Comunicação Estratégica Gestão de Mudanças: Resiliência para atuar em cenários de reestruturação organizacional, unificando as culturas de Datacenter e Cloud. Comunicação Baseada em Dados: Habilidade para traduzir métricas complexas (como exaustão de Error Budget) em decisões de negócio para POs e Tech Leads. 3. Melhoria Contínua e Curiosidade Análise Crítica: Capacidade de identificar padrões de falha durante a operação e transformá-los em lições aprendidas para o Guia de Produção. Inovação com IA: Abertura para utilizar agentes de IA na automação de procedimentos operacionais (SOPs), escalando o suporte técnico.