E ae pessoal! Estou com um projeto em meu trabalho para uma api webcrawler feita em spring boot que basicamente entra numa url e baixa de uma lista de links arquivos em pdf e os converte para txt logo em seguida, sendo que nesse processo preciso capturar dessa conversão um trecho especifico de texto não definido que é associado ao usuário cadastrado na api. Mas preciso de ajuda para entender como faço isso, porque preciso buscar o texto com os dados que o usuário cadastrou, como número de processo ou nome. Também preciso de ajuda pra saber quais bibliotecas utilizar em meu projeto e se alguém pode me dar um exemplo ou indicar material para estudo.
Não sei se vai te ajudar muito mas creio que com HtmlUnit você consiga fazer isso
Você pode utilizar o Selenium também.
Com o Selenium você consegue ver o que esta acontecendo com o “robo” e possui mais recursos que o HtmlUnit
No caso esta praticamente tudo pronto, pq faço o crawl/scraping utilizando o Neo4j/Jsoup e a conversão do pdf utilizando o Pdfbox, mas estou só tendo dificuldade só em rastrear o texto associado a lista de usuarios. O selenium consegue puxar o texto em String diretamente do PDF ou ainda preciso fazer do jeito que estou fazendo?
Cara, não tem mágica.
Para ler pdf, siga o link.
Para ler o texto desejado, dentro da String, siga.
De qualquer maneira, creio que usar regex possa ajudar.
Ninguém em sua sã consciência faz um crawler usando Spring Boot.
Como você diz que esta quase pronto e tudo no mesmo processo, provavelmente pegou a bomba de algum novato que resolveu fazer uma aplicação monolítica quando na verdade se trata de 3 processos/aplicações diferentes, 1) baixar os dados, 2) converter pra texto e 3) realizar busca.
Ainda não entendi muito bem a sua dificuldade. Você disse que já consegue baixar os PDFs e extrair o texto deles. E daí então você precisa buscar informações nesse texto correto ? Que tipo de informações você tem que buscar ? Pode dar um exemplo ?