Armazenar tags HTML - Nutch/Solr

Olá pessoal!

É o seguinte… estou desenvolvendo uma aplicação de RI onde uso o Nutch como crawler e o Solr para indexar o conteúdo encontrado pelo Nutch.
A questão é que eu preciso analisar a frequencia das tags html desse conteudo. Meu objetivo então é armazenar essas tags, mas não indexá-las.
Alguém tem ideia de como posso fazer isso?