Olá, pretendo usar o Lucene para criar um mecanismo de busca mas, pretendo usar apenas parte dessa api. Gostaria de usa-lo apenas para criar um conjunto de tokens os quais irei indexar. Dessa maneira, usaria o Lucene apenas para remover as stop words (palavras sem importancia para a busca) de um texto e a partir daí indexar para um banco de dados. Bom, no banco eu já tenho toda a estrutura para indexar as palavras e me falta apenas tratar o texto para remover as stop words. O problema é que nos artigos que tenho lido ele mostra como ler de um arquivo e criar indices em arquivos.
Isso não é interessante para mim pois minha aplicação funcionará da seguinte maneira: haverá uma jsp onde os usuarios irão cadastrar documentos. Em um dos campos o usario irá digitar o resumo do documento e a partir desse resumo é que eu criarei os indices no banco. Ou seja, nada de ler de arquivos ou gravar os indices em algum. Quero apenas uma api que me ofereça um tratamento da stop words. O Lucene serve pra isso? Alguem recomenda tutorias que expliquem como posso fazer isso? Algum outro framework? Fui no google e não encontrei nada de satisfatorio.
Até.