A JUIT é uma legaltech (startup do ramo jurídico). Nosso objetivo é otimizar a pesquisa jurídica para operadores do direito, estruturando dados do Judiciário brasileiro em uma plataforma de busca e jurimetria.
Iniciamos nossas atividades em 2018 e desde então já tivemos diversos reconhecimentos, seja em inovação ou na área de tecnologia.
Vaga
A equipe de Engenharia de Dados da JUIT concentra-se em estruturar e potencializar grandes volumes de dados jurídicos provenientes de múltiplas fontes públicas e privadas. Por meio de arquiteturas robustas, pipelines escaláveis e técnicas avançadas de processamento de dados, o time transforma informações brutas e heterogêneas em ativos confiáveis, estruturados e prontos para geração de valor.
Nossa engenharia atua em todo o ciclo de vida do dado: da coleta e ingestão, passando por tratamento, normalização e enriquecimento, com pipelines de IA, até a disponibilização para produtos, API's e modelos inteligentes. Trabalhamos continuamente para elevar a qualidade, a consistência e a rastreabilidade das informações, garantindo que cada dado entregue pela JUIT contribua diretamente para decisões mais seguras, eficientes e estratégicas no contexto jurídico.
Estamos em busca de um(a) Engenheiro(a) de Dados Jr para fazer parte do nosso time de coleta e ingestão de dados (Collect & Ingestion).
ATENÇÃO: Candidatos fora do perfil serão ignorados.
O que você fará:
* Desenvolver soluções para coleta e ingestão de dados;
* Atuar em conjunto com nosso time de engenharia para publicar serviços de dados para uso interno e externo de forma escalável e observável;
* Coletar, mapear e analisar dados de diversas fontes, estruturadas ou não;
* Trabalhar em conjunto com nosso time de segurança para garantir políticas de segurança de dados e compliance;
* Desenvolver frameworks de testes para melhorar e garantir a qualidade dos dados coletados;
* Monitorar e documentar o status de scrapers em produção e soluções já implantadas;
* Definir e implementar métricas para monitoramento de cargas de trabalho, alinhadas aos frameworks utilizados, incluindo indicadores de SLA, SLO e SLI, para garantir observabilidade e desempenho consistente.
Requisitos:
* Formação superior em exatas (Ciências da computação, engenharia ou áreas relacionadas);
* Sólidos conhecimentos em Python (2+ anos de experiência);
* Conhecimentos em linguagem SQL (+1 anos de experiência);
* Experiência com coleta de dados da web (web scraping, web crawling, RESTful API’s, datasets públicos);
* Sólidos conhecimentos em algoritmos e estruturas de dados;
* Conhecimentos em desenvolvimento orientado a testes (TDD);
* Conhecimentos em Docker;
* Inglês intermediário.
Diferenciais:
* Experiência com processamento e extração de dados de documentos (.DOCs, .RTFs, .PDFs, etc);
* Experiência com motores de busca de texto como Elasticsearch, Solr, OpenSearch, Sphinx, Amazon CloudSearch, Vespa e afins;
* Experiência com desenvolvimento nas linguagens Golang e/ou Rust;
* Experiência com pelo menos uma linguagem de programação baseada na JVM (Java, Scala, Clojure, etc.);
* Experiência com Infraestrutura como Código (Terraform, Pulumi, Chef, Ansible, etc.);
* Experiência com coleta de dados de mídia (áudio e vídeo) e sua transcrição para texto;
* Experiência com Kubernetes.
Período: Integral
Modelo de trabalho: Remoto