Capturar trecho de texto(URGENTE)

30 de janeiro de 2018 6 respostas

Felipe_Carli 30 de janeiro de 2018

E ae pessoal! Estou com um projeto em meu trabalho para uma api webcrawler feita em spring boot que basicamente entra numa url e baixa de uma lista de links arquivos em pdf e os converte para txt logo em seguida, sendo que nesse processo preciso capturar dessa conversão um trecho especifico de texto não definido que é associado ao usuário cadastrado na api. Mas preciso de ajuda para entender como faço isso, porque preciso buscar o texto com os dados que o usuário cadastrou, como número de processo ou nome. Também preciso de ajuda pra saber quais bibliotecas utilizar em meu projeto e se alguém pode me dar um exemplo ou indicar material para estudo.

6 Respostas

McGMS 31 de jan. de 2018

Não sei se vai te ajudar muito mas creio que com HtmlUnit você consiga fazer isso

Mike 31 de jan. de 2018

Você pode utilizar o Selenium também.

Com o Selenium você consegue ver o que esta acontecendo com o “robo” e possui mais recursos que o HtmlUnit

Felipe_Carli 31 de jan. de 2018

No caso esta praticamente tudo pronto, pq faço o crawl/scraping utilizando o Neo4j/Jsoup e a conversão do pdf utilizando o Pdfbox, mas estou só tendo dificuldade só em rastrear o texto associado a lista de usuarios. O selenium consegue puxar o texto em String diretamente do PDF ou ainda preciso fazer do jeito que estou fazendo?

darlan_machado 31 de jan. de 2018

Cara, não tem mágica.
Para ler pdf, siga o link.
Para ler o texto desejado, dentro da String, siga.
De qualquer maneira, creio que usar regex possa ajudar.

pfk66 31 de jan. de 2018

Ninguém em sua sã consciência faz um crawler usando Spring Boot.

Como você diz que esta quase pronto e tudo no mesmo processo, provavelmente pegou a bomba de algum novato que resolveu fazer uma aplicação monolítica quando na verdade se trata de 3 processos/aplicações diferentes, 1) baixar os dados, 2) converter pra texto e 3) realizar busca.

rmendes08 31 de jan. de 2018

Ainda não entendi muito bem a sua dificuldade. Você disse que já consegue baixar os PDFs e extrair o texto deles. E daí então você precisa buscar informações nesse texto correto ? Que tipo de informações você tem que buscar ? Pode dar um exemplo ?

Criado 30 de janeiro de 2018

Ultima resposta 31 de jan. de 2018

Respostas 6

Participantes 6

6 Respostas

Topicos relacionados