Pdfbox gerando texto pré-processado?

Question

Bom, não sei ao certo como dizer, mas houvi um boato de que o Pdfbox gera um texto intermediário antes de gerar a saida. por exemplo, um roda-pé neste texto pré-processado fica separado de um paragrafo que continua em ou&hellip;

entanglement · Answer

Ouvir é sem “h”. Em espanhol, existe o verbo “huir”, que tanto quer dizer “fugir” ou “escapar|” quanto “ouvir”.

De qualquer maneira, por que é que você precisa saber se há um texto intermediário no PDFBox? Se precisar de mais detalhes, a documentação do PDFBox está disponível em:

http://pdfbox.apache.org/

geazy · Answer

entanglement:Ouvir é sem “h”. Em espanhol, existe o verbo “huir”, que tanto quer dizer “fugir” ou “escapar|” quanto “ouvir”. De qualquer maneira, por que é que você precisa saber se há um texto intermediário no PDFBox? Se precisar de mais detalhes, a documentação do PDFBox está disponível em: http:/

entanglement · Answer

Ah, agora entendi. Você tem um PDF de um livro e quer pegar o texto, mas removendo os cabeçalhos e rodapés, que estão atrapalhando.
Infelizmente, se você olhar como um PDF é organizado, vai verificar que não há essa distinção como há em um arquivo MSWord ou OpenOffice. Portanto, se você sabe qual é o texto quase fixo do rodapé e cabeçalho (muda a numeração, e talvez o título de cada capítulo), pode tentar remover esse texto suplementar usando uma expressão regular.

5 Respostas

Topicos relacionados