Alterando BrazilianStemmer no Lucene

Olá. Desejo utilizar o BrazilianAnalyzer, mas não desejo realizar a pesquisa pelo radical, que encontra os mesmos resultados para “organizar”, “organizado”, “organizando” etc. Assim, comentei todos os blocos que fazem a remoção dos sufixos e só mantive os blocos que igualam os caracteres acentuados (“organizacao” ou “organização” retornando o mesmo resultado) e que retiram caracteres indesejáveis (! ? $ % etc).
Também modifiquei a lista de Brazilian Stop Words no BrazilianAnalyzer.
Compilei os dois fontes, BrazilianStemmer e BrazilianAnalyzer, recriei o lucene.jar atualizando o pacote /org/apache/lucene/analysis/br com as novas classes e substituí o antigo jar pelo novo em /usr/local/src/dspace/lib.
Executei ant update em /usr/local/src/dspace/ e copiei o dspace.war gerado para /usr/local/apache-tomcat-5.5.23/webapps. Reindexei e reiniciei o tomcat.
A nova lista de Stop words está funcionando ok, mas a pesquisa continua retornando os mesmos resultados, ignorando sufixos diferentes. O que pode ter ocorrido? Parace continuar trabalhando com a antiga BrazilianStemmer.class. :?:

2 Respostas

spranta 3 de out. de 2008

Olá Alcyone, voce conseguiu resolver seu problema, estou tendo a mesma dificuldade.

alissonzpx 3 de nov. de 2008

Utlize o StandarAnalyzer em vez do BrazilianAnalyzer e passe, através do construtor, um array de String contendo as StopWords. Isto não resolveria o problema?

2 Respostas

Topicos relacionados