Leitura/indexação de PDF's

26 de abril de 2006 7 respostas

plentz 26 de abril de 2006

Buenas, aqui na empresa estamos fazendo um levantamento de custos de desenvolvimento de um sistema pra uma biblioteca aqui do sul.

Problema: o sistema guardará não somente informações dos livros em papel, mas também ebooks que eles possuem no acervo. O sistema terá que possuir uma forma de busca DENTRO dos ebooks(em PDF, semelhante ao que o Google faz hoje), mas não conheço nenhuma API para leitura de PDF’s (somente escrita). Alguém possui alguma experiência no assunto?

7 Respostas

velo 26 de abr. de 2006

http://www.pdfbox.org

VELO

MarcioTavares 26 de abr. de 2006

Dá uma olhada no Apache Lucene, que ele tem um engine de busca em PDFs (se não for o próprio pdfbox que o Velo citou), que se eu não me engano fica no SandBox dele. Não estou certo de ser no SandBox pois tem um tempão que eu não vejo o Lucene.

_fs 26 de abr. de 2006

Para pegar o texto com o PDFBox (os exemplos do site tem muita lenga-lenga):

FileInputStream is = new FileInputStream( new File( "d:/pron/s3x_talez.pdf" ) );
PDFParser parser = new PDFParser( is )
parser.parse();
COSDocument cosDoc = parser.getDocument();
PDFTextStripper stripper = new PDFTextStripper();
String docText = stripper.getText( new PDDocument( cosDoc ) );

Falta tratar 2457 exceções, fechar os recursos e lalalá.

Ou se for usar Lucene mesmo fica mais simples:
http://www.pdfbox.org/javadoc/org/pdfbox/searchengine/lucene/LucenePDFDocument.html

MarcioTavares 26 de abr. de 2006

Agregando mais um item:

Making Lucene Play Nice with PDF’s - PDFTextStream
http://snowtide.com/home/PDFTextStream/techtips/easy_lucene_integration

plentz 27 de abr. de 2006

Opa!Era isso mesmo. Valeu pelos links e exemplos.

velo 27 de abr. de 2006

Valeu nada, é 100 reau mais o dinheiro do busão!

uchoaaa 25 de mai. de 2006

Pois é, estou com a mesa necessidade na empresa. Todo dia precisa indexar um maldito PDF manualmente (no esquema CTRL+F, CTRL+C, CTRL+V! ).

Baixei o PDFBox e jah dei uma implementada em algo. Um dos problemas é q o pdf está dividido em colunas, e eu preciso identificar o paragrado completo qnd acho um nome pesquisado. Qual seria a melhor maneira de fazer isso, trabalhando com o pdf memso ou passando pra um TXT ??

E pra fazer o conteudo do pdf tenho q necessariamente trabalhar com o pacote “baixo nivel” COS do PDFBox??

:thumbup:

Criado 26 de abril de 2006

Ultima resposta 25 de mai. de 2006

Respostas 7

Participantes 5

7 Respostas

Topicos relacionados