Usando o Lucene

Olá, pretendo usar o Lucene para criar um mecanismo de busca mas, pretendo usar apenas parte dessa api. Gostaria de usa-lo apenas para criar um conjunto de tokens os quais irei indexar. Dessa maneira, usaria o Lucene apenas para remover as stop words (palavras sem importancia para a busca) de um texto e a partir daí indexar para um banco de dados. Bom, no banco eu já tenho toda a estrutura para indexar as palavras e me falta apenas tratar o texto para remover as stop words. O problema é que nos artigos que tenho lido ele mostra como ler de um arquivo e criar indices em arquivos.

Isso não é interessante para mim pois minha aplicação funcionará da seguinte maneira: haverá uma jsp onde os usuarios irão cadastrar documentos. Em um dos campos o usario irá digitar o resumo do documento e a partir desse resumo é que eu criarei os indices no banco. Ou seja, nada de ler de arquivos ou gravar os indices em algum. Quero apenas uma api que me ofereça um tratamento da stop words. O Lucene serve pra isso? Alguem recomenda tutorias que expliquem como posso fazer isso? Algum outro framework? Fui no google e não encontrei nada de satisfatorio.

Até.

Pela descricao que vc deu, nao sei se usar o Lucene é uma boa - caso o seu banco de dados já tenha full-text searching, não tem pq usar ele…

Não entendi qual a sua dificuldade com as stop words, no entando… vc poderia ser mais especifico? Vc vai ter um conjunto de stop words fixo, ou vai depender do documento, linguagem, ou sei lá mais o que? :smiley:

É… eu vi que usar Lucene não era uma boa. Mas, seu post foi de extrema importancia. Imagine que eu não conhecia esse esquema de full-text searching. :shock:

Já estou lendo sobre… obrigado, cv.

Até.