Armazenar tags HTML - Nutch/Solr

0 respostas
paula1

Olá pessoal!

É o seguinte… estou desenvolvendo uma aplicação de RI onde uso o Nutch como crawler e o Solr para indexar o conteúdo encontrado pelo Nutch.
A questão é que eu preciso analisar a frequencia das tags html desse conteudo. Meu objetivo então é armazenar essas tags, mas não indexá-las.
Alguém tem ideia de como posso fazer isso?

Criado 23 de junho de 2011
Respostas 0
Participantes 1