Responsabilidades:
- Construção de processos de ingestão e transformação de dados, utilizando pySpark em ambiente Cloud AWS;
- Aplicar melhores práticas de desenvolvimento para processamento distribuído;
- Construção e evolução do Datalake atuando em squads multidisciplinares;
- Discutir necessidades do negócio com stakeholders, contribuindo com novos produtos,
visões que tragam descobertas e gerem insights para o negócio/produtos através de dados.
- Conhecer e utilizar as melhores práticas na implementação dos projetos de dados.
Requisitos:
- Formação Superior completa:
Ciência da Computação, Engenharia da Computação, Análise de Sistemas ou correlatas;
- Conhecimento deserviços Cloud e arquitetura de Software (AWS preferencialmente, Azure ou GCP);
- Sólidos conhecimento de ecossistemas Big Data (Hadoop, HDFS, MapReduce, Kafka etc);
- Sólidos conhecimento de processamento distribuído (Spark, RDD, pySpark, SparkSQL);
- Conhecimento emferramentas ETL (PowerCenter, Data Stage, Pentaho ou outras);
- Conhecimento emferramentas de automatização de processos - Airflow, Control-M;
- Programação avançada em Python com Dados;
- Conhecimento e vivência de frameworks ágeis;
- Experiência comliderança técnicas, boa gestão de tempo e sólidas habilidades de
comunicação (capacidade de transmitir conceitos relacionados a dados a não-peritos);
- Desejável conhecimento em Business Intelligence;
- Perfil para Mudanças e Inovação de processos.
- Experiência com desenho estratégico de arquitetura de dados;
- Conhecimentos sólidos em ferramentas de front-end de dados, como Power BI, QuickSight ou
similar;
- Perfil colaborador, mentalidade de resolução de problemas e bom relacionamento
interpessoal;
- Inglês avançadoé um diferencial.
Informações adicionais:
- Contrato CLT
- Atuação Remota