Indexação de colunas BLOB

Pessoal,

Estou com o seguinte problema:

Estou trabalhando em um projeto de Portal, que possui diversos arquivos PDFs armazenados. Porém, estes arquivos estão armazenados em um banco de dados, em uma coluna do tipo BLOB.

Surgiu agora a necessidade de se criar um mecanismo de busca para o Portal e deve-se incluir o conteúdo destes arquivos na busca. Ou seja, tem-se que indexar as colunas BLOB para fazer esta pesquisa.

Alguém já passou por esta experiência antes?
Usaram o Lucene para isso?

Alguma dica em especial?

Abraços
Geralldo

Ninguém?

Upar tópicos é chato cara, faça isso não.
Mas sim, já usei Lucene para indexar PDF, eu achei meio complicado de trabalhar com ele e o PDFBox. Se quiser ler: http://www.pdfbox.org/userguide/text_extraction.html

Quer uma outra dica? Não coloque arquivos no banco de dados. Você além de atrelar fortemente o banco de dados a aplicação, o retorno de arquivos blob é em geral BEM mais lento do que a leitura do arquivo plano.

Até!

Mais em:
http://lucene.apache.org/java/docs/contributions.html

Até!