Press monitoring  XML
Índice dos Fóruns » Java Avançado
Autor Mensagem
mlamego
What is classpath?

Membro desde: 02/05/2006 18:22:12
Mensagens: 9
Offline

Olá,

Gostaria de uma ajuda de vcs para desenvolver um sistema onde irá capturar (fazer um cache) de uma pagina html de algum site.

Ele funcionará assim: De uma lista de sites (páginas cadastradas), ele faz um parse para verificar a ocorrência de uma ou mais palavras chaves "apenas" no titulo ou no corpo da noticia, os links e propagandas(ruídos) tem que ser ignorados.

Como posso fazer este parse de forma rápida pois terei que cadastrar cerca de 150 ou mais paginas html?

Existe algum codigo fonte aberto do google para utilizar o query processor deles?

Agradeço desde já ,

Marcio
rubinelli
JavaEvangelist
[Avatar]

Membro desde: 26/04/2005 11:18:25
Mensagens: 469
Offline

Essa página lista 16 HTML parsers/scrapers em Java. Algum deles deve servir:

http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view

[WWW]
 
Índice dos Fóruns » Java Avançado
Ir para:   
Powered by JForum 2.1.8 © JForum Team