Experiência em projetos de dados escaláveis e eficientes utilizando o ecossistema AWS. Garantimos ao candidato a oportunidade de contribuir para soluções inovadoras, desenvolvendo pipelines desde a ingestão até a disponibilização das informações.
Requisitos Técnicos
* AWS Glue: criação e manutenção de jobs, crawlers, catálogos de dados e integração com outros serviços AWS.
* Apollo Airflow: orquestração de workflows ETL/ELT, agendamento e monitoramento de pipelines.
* Píthon: desenvolvimento de scripts e automações para tratamento e transformação de dados.
* PySpark: processamento distribuído de grandes volumes de dados, otimização de jobs e tuning de performance.
* Athena Amazon: criação e otimização de consultas SQL serverless, integração com S3 e Glue Data Catalog.
* S3 Amazon: modelagem de buckets, organização de dados brutos e tratados, versionamento e políticas de acesso.
* Lambda AWS: funções serverless para processamento em tempo real, automações e integrações.
* EMR Amazon: administração e execução de clusters Hadoop/Spark, configuração de ambientes e pipelines de alto desempenho.
* Git e CI/CD: versionamento de código, integração e entrega contínua, configuração de pipelines de deploy.
Habilidades Complementares
* Modelagem de dados: entendimento de estruturas dimensionais, relacionais e não relacionais, normalização/desnormalização e boas práticas para ambientes analíticos.
* ETL/ELT: levantamento de requisitos, desenho e implementação de fluxos de extração, transformação e carga, com foco em qualidade e governança.
* Boas práticas de segurança e compliance no ecossistema AWS.
* Integração de dados provenientes de múltiplas fontes.
* Monitoramento e observabilidade de pipelines.
* Documentação técnica clara e manutenção de repositórios de conhecimento.
Vantagens
* Oportunidade de trabalhar em projetos relevantes e inovadores.
* Apoio contínuo para o desenvolvimento profissional.
Outras Informações
* Familiaridade com espanhol para interação com times ou clientes hispano-falantes é um diferencial.
* Conhecimento de infraestrutura como código e experiência em otimização de custos em workloads de dados na nuvem são benéficos.