Boa tarde.
Pessoal, alguem conhece uma Lib, ou maneira, de ler o texto de um arquivo PDF
mantendo a sua formatação (negrito, sublinhado, tipo de fonte, tamanho da fonte…)?
Me deram uma dica do PDFBox, mas apenas estou conseguindo ler os blocos de textos.
Se alguem tiver um Exemplo, ou uma simples dica ja me ajudaria muito.
PS.: A Prioridade é PDF, mas se for para outros tipos também irá me ajudar.
Desde ja grato,
Filipe D.
[quote=dudaskank]talvez pode tentar isso aqui:
http://today.java.net/article/2005/10/18/accessing-pdf-document-acrobat-viewer-javabean[/quote]
Aew, vlw pela atenção.
Então, dei uam conferida, mas não é bem isso que preciso.
O que eu tenho que fazer é pegar os blocos de textos com as suas características e
gerar um .xml para este pdf.
Parecido com isto:
<?xml version="1.0" encoding="UTF-8"?>
<BLOCOS-set>
<BLOCO id="1" fote="arial" tamanho="12" negrito="false">
<text valor="Este é um texto com esta formatação" >
</BLOCO>
<BLOCO id="2" fote="arial" tamanho="20" negrito="false">
<text valor="Outra frase, formatação diferente" >
</BLOCO>
</BLOCOS-set>