Na Aquarela temos o propósito de aumentar a inteligência do mundo. Para isso, traduzimos problemas complexos de maneira inovadora e assertiva para soluções e produtos estratégicos para nossos clientes. O desafio que te espera aqui é o de trabalhar com a extração, transformação e carga de grandes volumes de dados, e de auxiliar a projetar, implementar e suportar Data Lakes, Data Warehouses e estruturas de dados robustas e totalmente baseadas em tecnologias open-source.
Atividades:
* Arquitetar as soluções existentes para garantir um código legível e de fácil manutenção;
* Trabalhar com grande volume de dados que serão utilizados para alimentação de Data Lake e Data Warehouse;
* Manipular e integrar dados de diferentes fontes, com diferentes sistemas;
* Criar e aperfeiçoar os processos e rotina de ETL, ELT e EtLT;
* Planejar e conduzir o processo de migração de Data Warehouses e Data Lakes;
* Implementar ferramentas e automatizar tarefas para atender as áreas de dados;
* Projetar e criar pipelines de dados confiáveis, trabalhar com fluxos completos de manipulação de dados, desde a extração até a documentação;
* Alinhar as expectativas dos times de dados (cientistas de dados, analistas de dados, engenheiros de dados);
* Interagir com o time de infraestrutura no desenvolvimento de soluções;
* Contribuir com os processos da área, mediante a execução de todos os atos inerentes e demais tarefas correlatas às funções, solicitadas pelo responsável da área.
Requisitos:
* Boas práticas em programação e facilidade de uso com OOP;
* Conhecimentos consolidados em Bancos de Dados relacionais e não relacionais;
* Conhecimento avançado em modelagem de dados;
* Conhecimento consolidado em arquitetura de dados multi-zonas (Medallion Architecture);
* Experiência em ferramentas de ETL, ELT, EtLT e integração de dados;
* Conhecimento avançado em SQL;
* Conhecimento em GitOps;
* Manipulação e criação de imagens Docker;
* Conhecimento básico de orquestração de containers com Kubernetes;
* Experiência com soluções de computação distribuídas como Spark,YARN e Trino;
* Domínio da ferramenta de orquestração e agendamento Apache Airflow;
* Experiência com sistema de arquivos distribuídos (HDFS, MinIO);
* Conhecimento de formatos de tabelas Iceberg, Delta Lake;
* Conhecimento em alguma Cloud Computing (AWS, GCP ou Azure);
* Modelagem e transformação de dados com dbt (Data Build Tools);
* Domínio do uso de sistemas operacionais baseados em Linux.
Desejáveis:
* Vivência em Python;
* Design Patterns;
* Apache Kafka;
* Monitoramento com Prometheus e Grafana;
* Domínio de alguma linguagem de programação fortemente tipada como Java ou C#;
* Conhecimento de contrato de dados (Data Contracts);
* Conhecimento do ecossistema Apache Hadoop;
* Conhecimento de formato de arquivos Parquet, Avro e ORC;
* Conhecimento de frameworks de qualidade de dados como SODA ou Great Expectations.
Características
Tipo de Contratação
Tempo integral
Salário
Negociável
Outras Características
Trabalho remoto
#J-18808-Ljbffr