Leitura/indexação de PDF's  XML
Índice dos Fóruns » Assuntos gerais (Off-topic)
Autor Mensagem
plentz
Moderador
[Avatar]

Membro desde: 28/01/2004 07:34:12
Mensagens: 1584
Localização: Porto Alegre, RS
Offline

Buenas, aqui na empresa estamos fazendo um levantamento de custos de desenvolvimento de um sistema pra uma biblioteca aqui do sul.

Problema: o sistema guardará não somente informações dos livros em papel, mas também ebooks que eles possuem no acervo. O sistema terá que possuir uma forma de busca DENTRO dos ebooks(em PDF, semelhante ao que o Google faz hoje), mas não conheço nenhuma API para leitura de PDF's (somente escrita). Alguém possui alguma experiência no assunto?

Diego Plentz - Twitter
"Provide options, don't make lame excuses."
[Email] [WWW]
velo
GUJ Ranger
[Avatar]

Membro desde: 19/02/2004 18:23:55
Mensagens: 797
Localização: Jaraguá do Sul - SC
Offline

http://www.pdfbox.org

VELO

Use o melhor:

Linux para servidores
Macintosh para gráficos
Palm para mobilidade
Windows para jogar paciência

SCJP 5
[Email] [MSN] [ICQ]
MarcioTavares
Virtual Machine Man
[Avatar]

Membro desde: 09/11/2002 19:33:28
Mensagens: 738
Localização: Rio de Janeiro
Offline

Dá uma olhada no Apache Lucene, que ele tem um engine de busca em PDFs (se não for o próprio pdfbox que o Velo citou), que se eu não me engano fica no SandBox dele. Não estou certo de ser no SandBox pois tem um tempão que eu não vejo o Lucene.

- Galera do RJ precisa prestigiar os eventos de Java!!

- Sou a favor da extinção do Cobol da face da Terra!
[Email] [MSN]
Filipe Sabella
GUJ Expert

Membro desde: 12/03/2003 11:25:57
Mensagens: 4680
Offline

Para pegar o texto com o PDFBox (os exemplos do site tem muita lenga-lenga):

Falta tratar 2457 exceções, fechar os recursos e lalalá.

Ou se for usar Lucene mesmo fica mais simples:
http://www.pdfbox.org/javadoc/org/pdfbox/searchengine/lucene/LucenePDFDocument.html

Former LIPE.
[ICQ]
MarcioTavares
Virtual Machine Man
[Avatar]

Membro desde: 09/11/2002 19:33:28
Mensagens: 738
Localização: Rio de Janeiro
Offline


Agregando mais um item:

Making Lucene Play Nice with PDF's - PDFTextStream
http://snowtide.com/home/PDFTextStream/techtips/easy_lucene_integration

- Galera do RJ precisa prestigiar os eventos de Java!!

- Sou a favor da extinção do Cobol da face da Terra!
[Email] [MSN]
plentz
Moderador
[Avatar]

Membro desde: 28/01/2004 07:34:12
Mensagens: 1584
Localização: Porto Alegre, RS
Offline

Opa!Era isso mesmo. Valeu pelos links e exemplos.

Diego Plentz - Twitter
"Provide options, don't make lame excuses."
[Email] [WWW]
velo
GUJ Ranger
[Avatar]

Membro desde: 19/02/2004 18:23:55
Mensagens: 797
Localização: Jaraguá do Sul - SC
Offline

Valeu nada, é 100 reau mais o dinheiro do busão!

Use o melhor:

Linux para servidores
Macintosh para gráficos
Palm para mobilidade
Windows para jogar paciência

SCJP 5
[Email] [MSN] [ICQ]
uchoaaa
JavaChild

Membro desde: 01/04/2006 21:02:33
Mensagens: 133
Offline

Pois é, estou com a mesa necessidade na empresa. Todo dia precisa indexar um maldito PDF manualmente (no esquema CTRL+F, CTRL+C, CTRL+V! ).

Baixei o PDFBox e jah dei uma implementada em algo. Um dos problemas é q o pdf está dividido em colunas, e eu preciso identificar o paragrado completo qnd acho um nome pesquisado. Qual seria a melhor maneira de fazer isso, trabalhando com o pdf memso ou passando pra um TXT ??

E pra fazer o conteudo do pdf tenho q necessariamente trabalhar com o pacote "baixo nivel" COS do PDFBox??

 
Índice dos Fóruns » Assuntos gerais (Off-topic)
Ir para:   
Powered by JForum 2.1.8 © JForum Team