Alguém sabe como ler arquivos .pdf em java, fazendo reconhecimento de caracteres e, se possível, editando-os?
E se alguém souber além disso, também para .xls .doc me avise!
valew
Alguém sabe como ler arquivos .pdf em java, fazendo reconhecimento de caracteres e, se possível, editando-os?
E se alguém souber além disso, também para .xls .doc me avise!
valew
deu uma pesquisada e achei uma biblioteca que gera pdfs: http://www.lowagie.com/iText/
Só que no FAQ tem a seguinte pergunta:
"Is it possible to parse an existing PDF-document and convert it to another format (HTML, DOC, EXCEL)?
No, the pdf format is just a canvas where text and graphics are placed without any structure information. As such there aren’t any ‘iText-objects’ in a PDF file. For instance: you can’t retrieve a table object from a PDF file. Tables are formed by placing text and lines at selected places. " (http://www.lowagie.com/iText/faq.html#parsepdf)
Ou seja, pelo que eles dizem é impossível interpretar um PDF como um texto editável pq ele é só imagem.
É mais ou menos como converter um texto em curvas no Corel e depois querer editar o texto de novo…
Neto, eu acho q eles estão se referindo apenas a java não poder transformar o formato pdf em html/doc, porque eu já baixei vários programas que extraem o conteúdo de um pdf para html, o único problema é que esses programas são shareware e só extraem o arquivo todo mediante alguma extorsão financeira.
E seria bom ler por java e não gravar o pdf, mas valew mesmo assim
falow