Tech Lead SRE
Country: Brazil
Para essa posição, técnicamente é esperado que você (Hard Skill):
**1. Governança de Confiabilidade e Performance**
Conduzir as definição e gestão de SLIs, SLOs e Error Budgets para serviços críticos de Tier 1.
Capacidade de monitorar e otimizar métricas de performance, como latência p95 (alvo < 200ms) e taxas de erro em tempo real.
Experiência prática na redução de Toil através de automação inteligente e refinamento de alertas para diminuir o ruído operacional em 30%.
Vivência em ambientes com OpenTelemetry (OTel)
**2. Infraestrutura e Cloud Engineering**
Proficiência em arquitetura de nuvem (Azure/AWS) e automação de pipelines para criação e patching de Golden Images.
Sólidos conhecimentos em Terraform para provisionamento de infraestrutura multicloud (Azure/AWS).
Kubernetes (AKS/EKS): Domínio profundo de orquestração de containers, incluindo Service Mesh (Istio ou Linkerd) para controle de tráfego.
Proficiência em Python (preferencial para IA/Automação) ou Go.
Frameworks de Agentes: Conhecimento em LangChain ou CrewAI para estruturar agentes que consomem documentação técnica e executam scripts de automação.
**3. Gestão de Incidentes e Segurança**
Habilidade para liderar post-mortems e reduzir o MTTR (Mean Time to Repair) através de planos de ação estruturados.
Conhecimento em segurança para garantir a conformidade de vulnerabilidades (CVEs) em contratos de API e imagens de sistema. Mentalidade de Habilitação (Enabling Mindset)
Para essa posição, é esperado que você tenha a seguinte facilidade (Soft Skill):
**1. Foco no Onboarding**:
Capacidade de conduzir as fases de Engajamento, Análise e Treinamento para que os Fusion Teams aprendam a operar seus próprios serviços.
Empatia Técnica: Entender as dores dos desenvolvedores para reduzir o TTFC (Time to First Call) e melhorar a experiência geral da plataforma.
**2. Liderança Técnica e Comunicação Estratégica**
Gestão de Mudanças: Resiliência para atuar em cenários de reestruturação organizacional, unificando as culturas de Datacenter e Cloud.
Comunicação Baseada em Dados: Habilidade para traduzir métricas complexas (como exaustão de Error Budget) em decisões de negócio para POs e Tech Leads.
**3. Melhoria Contínua e Curiosidade**
Análise Crítica: Capacidade de identificar padrões de falha durante a operação e transformá-los em lições aprendidas para o Guia de Produção.
Inovação com IA: Abertura para utilizar agentes de IA na automação de procedimentos operacionais (SOPs), escalando o suporte técnico.