Press monitoring

mlamego · Dezembro 6, 2007, 4:52pm

Olá,

Gostaria de uma ajuda de vcs para desenvolver um sistema onde irá capturar (fazer um cache) de uma pagina html de algum site.

Ele funcionará assim: De uma lista de sites (páginas cadastradas), ele faz um parse para verificar a ocorrência de uma ou mais palavras chaves “apenas” no titulo ou no corpo da noticia, os links e propagandas(ruídos) tem que ser ignorados.

Como posso fazer este parse de forma rápida pois terei que cadastrar cerca de 150 ou mais paginas html?

Existe algum codigo fonte aberto do google para utilizar o query processor deles?

Agradeço desde já ,

Marcio

rubinelli · Dezembro 6, 2007, 5:40pm

Essa página lista 16 HTML parsers/scrapers em Java. Algum deles deve servir:

http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view

system · Dezembro 28, 2015, 9:55pm

Press monitoring

Cursos de Mobile

Cursos de Programação

Cursos de Front-end

Cursos de DevOps

Cursos de Design & UX

Cursos de Business

Cursos de Data & BI