A JUIT é uma legaltech (startup do ramo jurídico). Nosso objetivo é otimizar a pesquisa jurídica para operadores do direito, estruturando dados do Judiciário brasileiro em uma plataforma de busca e jurimetria. Iniciamos nossas atividades em 2018 e desde então já tivemos diversos reconhecimentos, seja em inovação ou na área de tecnologia.Vaga A equipe de Engenharia de Dados da JUIT concentra-se em estruturar e potencializar grandes volumes de dados jurídicos provenientes de múltiplas fontes públicas e privadas. Por meio de arquiteturas robustas, pipelines escaláveis e técnicas avançadas de processamento de dados, o time transforma informações brutas e heterogêneas em ativos confiáveis, estruturados e prontos para geração de valor. Nossa engenharia atua em todo o ciclo de vida do dado: da coleta e ingestão, passando por tratamento, normalização e enriquecimento, com pipelines de IA, até a disponibilização para produtos, API's e modelos inteligentes. Trabalhamos continuamente para elevar a qualidade, a consistência e a rastreabilidade das informações, garantindo que cada dado entregue pela JUIT contribua diretamente para decisões mais seguras, eficientes e estratégicas no contexto jurídico. Estamos em busca de um(a) Engenheiro(a) de Dados Jr para fazer parte do nosso time de coleta e ingestão de dados (Collect & Ingestion).ATENÇÃO: Candidatos fora do perfil serão ignorados.O que você fará: Desenvolver soluções para coleta e ingestão de dados; Atuar em conjunto com nosso time de engenharia para publicar serviços de dados para uso interno e externo de forma escalável e observável; Coletar, mapear e analisar dados de diversas fontes, estruturadas ou não; Trabalhar em conjunto com nosso time de segurança para garantir políticas de segurança de dados e compliance; Desenvolver frameworks de testes para melhorar e garantir a qualidade dos dados coletados; Monitorar e documentar o status de scrapers em produção e soluções já implantadas; Definir e implementar métricas para monitoramento de cargas de trabalho, alinhadas aos frameworks utilizados, incluindo indicadores de SLA, SLO e SLI, para garantir observabilidade e desempenho consistente.Requisitos: Formação superior em exatas (Ciências da computação, engenharia ou áreas relacionadas); Sólidos conhecimentos em Python (2+ anos de experiência); Conhecimentos em linguagem SQL (+1 anos de experiência); Experiência com coleta de dados da web (web scraping, web crawling, RESTful API's, datasets públicos); Sólidos conhecimentos em algoritmos e estruturas de dados; Conhecimentos em desenvolvimento orientado a testes (TDD); Conhecimentos em Docker; Inglês intermediário.Diferenciais: Experiência com processamento e extração de dados de documentos (.DOCs, .RTFs, .PDFs, etc); Experiência com motoresde busca de texto como Elasticsearch, Solr, OpenSearch, Sphinx, Amazon CloudSearch, Vespa e afins; Experiência com desenvolvimento nas linguagens Golang e/ou Rust; Experiência com pelo menos uma linguagem de programação baseada na JVM (Java, Scala, Clojure, etc.); Experiência com Infraestrutura como Código (Terraform, Pulumi, Chef, Ansible, etc.); Experiência com coleta de dados de mídia (áudio e vídeo) e sua transcrição para texto; Experiência com Kubernetes.Período: Integral Modelo de trabalho: Remoto