Profissionais de alta capacidade em projetos de dados escaláveis e eficientes buscam trabalhar em um ambiente AWS. Conhecimentos técnicos incluem Glue, Airflow, Python, PySpark, Amazon Athena, S3, Lambda, EMR e Git/CI/CD.
Habilidades Técnicas
* Glue – Criação e manutenção de jobs, crawlers, catálogos de dados e integração com outros serviços AWS
* Airflow – Orquestração de workflows ETL/ELT, agendamento e monitoramento de pipelines
* Python – Desenvolvimento de scripts e automações para tratamento e transformação de dados
* PySpark – Processamento distribuído de grandes volumes de dados e otimização de jobs
* Amazon Athena – Criação e otimização de consultas SQL serverless e integração com S3 e Glue Data Catalog
* S3 – Modelagem de buckets, organização de dados brutos e tratados, versionamento e políticas de acesso
* Lambda – Funções serverless para processamento em tempo real, automações e integrações
* EMR – Administração e execução de clusters Hadoop/Spark, configuração de ambientes e pipelines de alto desempenho
* Git e CI/CD – Versionamento de código, integração e entrega contínua, configuração de pipelines de deploy
Competências Complementares
* Modelagem de dados – Entendimento de estruturas dimensionais, relacionais e não relacionais, normalização/desnormalização e boas práticas para ambientes analíticos
* ETL/ELT – Levantamento de requisitos, desenho e implementação de fluxos de extração, transformação e carga, com foco em qualidade e governança
* Boas práticas de segurança e compliance no ecossistema AWS (IAM, KMS, políticas de acesso, criptografia)
* Integração de dados provenientes de múltiplas fontes
* Monitoramento e observabilidade de pipelines
* Documentação técnica clara e manutenção de repositórios de conhecimento