Problema com acentuação no Apache Lucene

2 respostas
Gmegale

Estou utilizando o Apache Lucene 6.6.1 para realizar a busca de documentos do Word. Estou tendo problema ao realizar buscas utilizando palavras acentuadas e operador lógico AND.

Estou utilizando o BrazilianAnalyzer tanto para realizar a indexação quanto para realizar as buscas. Esse mesmo problema ocorreu em outras versões mais antigas do Apache Lucene que utilizei

Busca: Jose OR Fulano
Result: { José Fulano }

Busca: José OR Fulano (acentuação)
Result: { José Fulano }

Busca: Jose
Result: { José Fulano }

Busca: José (acentuação)
Result: { José Fulano }

Busca: Jose AND Fulano
Result: { }

Busca: José AND Fulano (acentuação)
Result: { }

Cheguei a conclusão que o problema está na indexação das palavras, que elas estão sendo indexadas com acentuação.

Alguém tem alguma ideia de como realizar a indexação ignorando a acentuação?

agradeço pela atenção galera

2 Respostas

D

Não me lembro como era o funcionamento no Lucene, mas no Sorl você configura os @TokenFilter e em um deles é possível você especificar essa classe org.apache.solr.analysis.BrazilianStemFilterFactory

Gmegale

No Lucene eu não consigo chegar a essa classe. está bem difícil de fazer essa parte funcionar

Criado 15 de setembro de 2017
Ultima resposta 18 de set. de 2017
Respostas 2
Participantes 2