A JUIT é uma legaltech (startup do ramo jurídico). Nosso objetivo é otimizar a pesquisa jurídica para operadores do direito, estruturando dados do Judiciário brasileiro em uma plataforma de busca e jurimetria.Iniciamos nossas atividades em 2018 e desde então já tivemos diversos reconhecimentos, seja em inovação ou na área de tecnologia.VagaA equipe de Engenharia de Dados da JUIT concentra-se em estruturar e potencializar grandes volumes de dados jurídicos provenientes de múltiplas fontes públicas e privadas. Por meio de arquiteturas robustas, pipelines escaláveis e técnicas avançadas de processamento de dados, o time transforma informações brutas e heterogêneas em ativos confiáveis, estruturados e prontos para geração de valor.Nossa engenharia atua em todo o ciclo de vida do dado: da coleta e ingestão, passando por tratamento, normalização e enriquecimento, com pipelines de IA, até a disponibilização para produtos, API's e modelos inteligentes. Trabalhamos continuamente para elevar a qualidade, a consistência e a rastreabilidade das informações, garantindo que cada dado entregue pela JUIT contribua diretamente para decisões mais seguras, eficientes e estratégicas no contexto jurídico.Estamos em busca de um(a) Engenheiro(a) de Dados Jr para fazer parte do nosso time de coleta e ingestão de dados (Collect & Ingestion). ATENÇÃO: Candidatos fora do perfil serão ignorados.O que você fará:Desenvolver soluções para coleta e ingestão de dados;Atuar em conjunto com nosso time de engenharia para publicar serviços de dados para uso interno e externo de forma escalável e observável;Coletar, mapear e analisar dados de diversas fontes, estruturadas ou não;Trabalhar em conjunto com nosso time de segurança para garantir políticas de segurança de dados e compliance;Desenvolver frameworks de testes para melhorar e garantir a qualidade dos dados coletados;Monitorar e documentar o status de scrapers em produção e soluções já implantadas;Definir e implementar métricas para monitoramento de cargas de trabalho, alinhadas aos frameworks utilizados, incluindo indicadores de SLA, SLO e SLI, para garantir observabilidade e desempenho consistente.Requisitos:Formação superior em exatas (Ciências da computação, engenharia ou áreas relacionadas);Sólidos conhecimentos em Python (2+ anos de experiência);Conhecimentos em linguagem SQL (+1 anos de experiência);Experiência com coleta de dados da web (web scraping, web crawling, RESTful API’s, datasets públicos);Sólidos conhecimentos em algoritmos e estruturas de dados;Conhecimentos em desenvolvimento orientado a testes (TDD);Conhecimentos em Docker;Inglês intermediário.Diferenciais:Experiência com processamento e extração de dados de documentos (.DOCs, .RTFs, .PDFs, etc);Experiência com motores de busca de texto como Elasticsearch, Solr, OpenSearch, Sphinx, Amazon CloudSearch, Vespa e afins;Experiência com desenvolvimento nas linguagens Golang e/ou Rust;Experiência com pelo menos uma linguagem de programação baseada na JVM (Java, Scala, Clojure, etc.);Experiência com Infraestrutura como Código (Terraform, Pulumi, Chef, Ansible, etc.);Experiência com coleta de dados de mídia (áudio e vídeo) e sua transcrição para texto;Experiência com Kubernetes.Período: IntegralModelo de trabalho: Remoto