Problema com acentuação no Apache Lucene

Estou utilizando o Apache Lucene 6.6.1 para realizar a busca de documentos do Word. Estou tendo problema ao realizar buscas utilizando palavras acentuadas e operador lógico AND.

Estou utilizando o BrazilianAnalyzer tanto para realizar a indexação quanto para realizar as buscas. Esse mesmo problema ocorreu em outras versões mais antigas do Apache Lucene que utilizei

Busca: Jose OR Fulano
Result: { José Fulano }

Busca: José OR Fulano (acentuação)
Result: { José Fulano }

Busca: Jose
Result: { José Fulano }

Busca: José (acentuação)
Result: { José Fulano }

Busca: Jose AND Fulano
Result: { }

Busca: José AND Fulano (acentuação)
Result: { }

Cheguei a conclusão que o problema está na indexação das palavras, que elas estão sendo indexadas com acentuação.

Alguém tem alguma ideia de como realizar a indexação ignorando a acentuação?

agradeço pela atenção galera

2 Respostas

DarkElf 15 de set. de 2017

Não me lembro como era o funcionamento no Lucene, mas no Sorl você configura os @TokenFilter e em um deles é possível você especificar essa classe org.apache.solr.analysis.BrazilianStemFilterFactory

Gmegale 18 de set. de 2017

No Lucene eu não consigo chegar a essa classe. está bem difícil de fazer essa parte funcionar

2 Respostas

Topicos relacionados