O que é necessário para esta posição:
* Graduação em Ciência da Computação, Engenharia De Computação, Sistemas da Informação, ou áreas afins.
* Pacote office/Google avançado;
Será um diferencial se você tiver:
* Processamento distribuído (ex.: Spark, Hadoop, Hive, Glue) em ambientes como AWS EMR, Databricks;
* Conhecimento em modelagem de dados dimensional e relacional;
* Conhecimento de bancos de dados relacionais (Oracle e SQL Server) e NoSql (MongoDB, Cosmos DB ou Cassandra);
* Conhecimento de ferramentas de ETL de mercado;
* Conhecimento de tecnologias de Big Data, Spark e ecossistema Hadoop;
* Conhecimento em Airflow e Docker;
* Conhecimento na criação de processos batch e processamento de dados em tempo real;
* Conhecimento em diferentes arquiteturas tradicionais de armazenamento de dados, Data Lake e Data Warehouse.
* Conhecimento das melhores práticas de Governança de Dados
Como será o seu dia a dia:
* Criar pipelines de dados em ambientes Cloud e On Premise;
* Preparar os dados como parte de um processo ETL/ELT;
* Projetar, construir e manter os repositórios de dados e/ou Data Lake;
* Integrar diferentes fontes de dados, garantindo a segurança e a alta disponibilidade;
* Garantir a curadoria de dados e respeito à LGPD;
* Otimizar e executar scripts de atualização de dados de forma performática;
* Conhecer as melhores práticas de modelagem e persistência de dados;
* Conhecer o modelo/regras de negócio para garantir a governança da informação, bem como a definição da estratégia de construção dos pipelines de dados;
* Conhecer estruturação de Data Lake e Data Hub;
* Modelagem Estatística e Analítica
* Interpretação e Tomada de Decisões;
* Acompanhamento e Avaliação;
* Desenvolvimento de Ferramentas e Automação;
* Aprendizado de Máquina e Inteligência Artificial;