| Autor |
Mensagem |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 26/04/2006 14:35:12
|
plentz
Moderador
![[Avatar]](/images/avatar/73f490f3f868edbcd80b5d3f7cedc403.png)
Membro desde: 28/01/2004 07:34:12
Mensagens: 1584
Localização: Porto Alegre, RS
Offline
|
Buenas, aqui na empresa estamos fazendo um levantamento de custos de desenvolvimento de um sistema pra uma biblioteca aqui do sul.
Problema: o sistema guardará não somente informações dos livros em papel, mas também ebooks que eles possuem no acervo. O sistema terá que possuir uma forma de busca DENTRO dos ebooks(em PDF, semelhante ao que o Google faz hoje), mas não conheço nenhuma API para leitura de PDF's (somente escrita). Alguém possui alguma experiência no assunto?
|
Diego Plentz - Twitter
"Provide options, don't make lame excuses." |
|
|
 |
|
|
![[Post New]](/templates/default/images/icon_minipost_new.gif) 26/04/2006 15:03:04
|
velo
GUJ Ranger
![[Avatar]](/images/avatar/32b991e5d77ad140559ffb95522992d0.jpg)
Membro desde: 19/02/2004 18:23:55
Mensagens: 797
Localização: Jaraguá do Sul - SC
Offline
|
http://www.pdfbox.org
VELO
|
Use o melhor:
Linux para servidores
Macintosh para gráficos
Palm para mobilidade
Windows para jogar paciência
SCJP 5 |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 26/04/2006 15:59:55
|
MarcioTavares
Virtual Machine Man
![[Avatar]](/images/avatar/9dfcd5e558dfa04aaf37f137a1d9d3e5.png)
Membro desde: 09/11/2002 19:33:28
Mensagens: 738
Localização: Rio de Janeiro
Offline
|
Dá uma olhada no Apache Lucene, que ele tem um engine de busca em PDFs (se não for o próprio pdfbox que o Velo citou), que se eu não me engano fica no SandBox dele. Não estou certo de ser no SandBox pois tem um tempão que eu não vejo o Lucene.
|
- Galera do RJ precisa prestigiar os eventos de Java!!
- Sou a favor da extinção do Cobol da face da Terra! |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 26/04/2006 16:01:11
|
Filipe Sabella
GUJ Expert
Membro desde: 12/03/2003 11:25:57
Mensagens: 4680
Offline
|
Para pegar o texto com o PDFBox (os exemplos do site tem muita lenga-lenga):
Falta tratar 2457 exceções, fechar os recursos e lalalá.
Ou se for usar Lucene mesmo fica mais simples:
http://www.pdfbox.org/javadoc/org/pdfbox/searchengine/lucene/LucenePDFDocument.html
|
Former LIPE. |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 26/04/2006 16:03:51
|
MarcioTavares
Virtual Machine Man
![[Avatar]](/images/avatar/9dfcd5e558dfa04aaf37f137a1d9d3e5.png)
Membro desde: 09/11/2002 19:33:28
Mensagens: 738
Localização: Rio de Janeiro
Offline
|
Agregando mais um item:
Making Lucene Play Nice with PDF's - PDFTextStream
http://snowtide.com/home/PDFTextStream/techtips/easy_lucene_integration
|
- Galera do RJ precisa prestigiar os eventos de Java!!
- Sou a favor da extinção do Cobol da face da Terra! |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 27/04/2006 08:08:06
|
plentz
Moderador
![[Avatar]](/images/avatar/73f490f3f868edbcd80b5d3f7cedc403.png)
Membro desde: 28/01/2004 07:34:12
Mensagens: 1584
Localização: Porto Alegre, RS
Offline
|
Opa!Era isso mesmo. Valeu pelos links e exemplos.
|
Diego Plentz - Twitter
"Provide options, don't make lame excuses." |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 27/04/2006 08:54:49
|
velo
GUJ Ranger
![[Avatar]](/images/avatar/32b991e5d77ad140559ffb95522992d0.jpg)
Membro desde: 19/02/2004 18:23:55
Mensagens: 797
Localização: Jaraguá do Sul - SC
Offline
|
Valeu nada, é 100 reau mais o dinheiro do busão!
|
Use o melhor:
Linux para servidores
Macintosh para gráficos
Palm para mobilidade
Windows para jogar paciência
SCJP 5 |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/05/2006 23:42:52
|
uchoaaa
JavaChild
Membro desde: 01/04/2006 21:02:33
Mensagens: 133
Offline
|
Pois é, estou com a mesa necessidade na empresa. Todo dia precisa indexar um maldito PDF manualmente (no esquema CTRL+F, CTRL+C, CTRL+V! ).
Baixei o PDFBox e jah dei uma implementada em algo. Um dos problemas é q o pdf está dividido em colunas, e eu preciso identificar o paragrado completo qnd acho um nome pesquisado. Qual seria a melhor maneira de fazer isso, trabalhando com o pdf memso ou passando pra um TXT ??
E pra fazer o conteudo do pdf tenho q necessariamente trabalhar com o pacote "baixo nivel" COS do PDFBox??
|
|
|
 |
|
|