Buenas, aqui na empresa estamos fazendo um levantamento de custos de desenvolvimento de um sistema pra uma biblioteca aqui do sul.
Problema: o sistema guardará não somente informações dos livros em papel, mas também ebooks que eles possuem no acervo. O sistema terá que possuir uma forma de busca DENTRO dos ebooks(em PDF, semelhante ao que o Google faz hoje), mas não conheço nenhuma API para leitura de PDF’s (somente escrita). Alguém possui alguma experiência no assunto?
Dá uma olhada no Apache Lucene, que ele tem um engine de busca em PDFs (se não for o próprio pdfbox que o Velo citou), que se eu não me engano fica no SandBox dele. Não estou certo de ser no SandBox pois tem um tempão que eu não vejo o Lucene.
_fs
Para pegar o texto com o PDFBox (os exemplos do site tem muita lenga-lenga):
Pois é, estou com a mesa necessidade na empresa. Todo dia precisa indexar um maldito PDF manualmente (no esquema CTRL+F, CTRL+C, CTRL+V! ).
Baixei o PDFBox e jah dei uma implementada em algo. Um dos problemas é q o pdf está dividido em colunas, e eu preciso identificar o paragrado completo qnd acho um nome pesquisado. Qual seria a melhor maneira de fazer isso, trabalhando com o pdf memso ou passando pra um TXT ??
E pra fazer o conteudo do pdf tenho q necessariamente trabalhar com o pacote “baixo nivel” COS do PDFBox??