Press monitoring

Olá,

Gostaria de uma ajuda de vcs para desenvolver um sistema onde irá capturar (fazer um cache) de uma pagina html de algum site.

Ele funcionará assim: De uma lista de sites (páginas cadastradas), ele faz um parse para verificar a ocorrência de uma ou mais palavras chaves “apenas” no titulo ou no corpo da noticia, os links e propagandas(ruídos) tem que ser ignorados.

Como posso fazer este parse de forma rápida pois terei que cadastrar cerca de 150 ou mais paginas html?

Existe algum codigo fonte aberto do google para utilizar o query processor deles?

Agradeço desde já ,

Marcio

Essa página lista 16 HTML parsers/scrapers em Java. Algum deles deve servir:

http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view