Pdfbox gerando texto pré-processado?

5 respostas
G

Bom, não sei ao certo como dizer, mas houvi um boato de que o Pdfbox gera um texto intermediário antes de gerar a saida. por exemplo, um roda-pé neste texto pré-processado fica separado de um paragrafo que continua em outra pagina, diferente da saida final, que mistura o roda-pé no meio do paragrafo. Será que esse boato procede?[b]

5 Respostas

E

Ouvir é sem “h”. Em espanhol, existe o verbo “huir”, que tanto quer dizer “fugir” ou “escapar|” quanto “ouvir”.

De qualquer maneira, por que é que você precisa saber se há um texto intermediário no PDFBox? Se precisar de mais detalhes, a documentação do PDFBox está disponível em:

http://pdfbox.apache.org/

G

entanglement:
Ouvir é sem “h”. Em espanhol, existe o verbo “huir”, que tanto quer dizer “fugir” ou “escapar|” quanto “ouvir”.

De qualquer maneira, por que é que você precisa saber se há um texto intermediário no PDFBox? Se precisar de mais detalhes, a documentação do PDFBox está disponível em:

http://pdfbox.apache.org/


Pois é, o pior é que eu sei dessa de ouvir/houver. na “ora” não pensei nisso, mas tudo bem, erros todos cometemos. Na verdade o meu problema está na geração do texto do pdf em que ele mistura o roda-pé como o conteudo do pdf.
Exemplo:
-><- = Paragrafo continua em outra pagina.
– = rodapé
No capítulo seguinte
consideraremos a luta pela existência entre os seres organizados em todo o ->
–5 designação comum a diversas pequenas aves passeriformes, da família dos laniídeos, de plumagem
geralmente pouco vistosa, bico forte e adunco e cauda longa (alimentam-se de insetos e
pequenos vertebrados e podem usar pequenos espinhos na captura das presas).
17
<-mundo, luta que deve inevitavelmente fluir da progressão geométrica do seu aumento
em número.

E

Ah, agora entendi. Você tem um PDF de um livro e quer pegar o texto, mas removendo os cabeçalhos e rodapés, que estão atrapalhando.
Infelizmente, se você olhar como um PDF é organizado, vai verificar que não há essa distinção como há em um arquivo MSWord ou OpenOffice. Portanto, se você sabe qual é o texto quase fixo do rodapé e cabeçalho (muda a numeração, e talvez o título de cada capítulo), pode tentar remover esse texto suplementar usando uma expressão regular.

G

Foi exatamente o que pensei, mas o responsavel pelo projeto ao qual participo pensa diferente. Valeu pela ajuda. Na verdade eu iria necesitar tambem do rodapé, mas eu teria que tirar do meio do texto para pegar o paragrafo inteiro…

E

Pelo que eu imagino, se você sabe exatamente onde fica o rodapé e o cabeçalho na página do livro, você pode usar a classe PDFTextStripperByArea para limitar a parte da página onde você vai pegar o texto. Como é que se usa essa classe é que são outros 500.

Criado 20 de novembro de 2012
Ultima resposta 22 de nov. de 2012
Respostas 5
Participantes 2