Robo para busca remota

Fiz umas pesquisas no google, mas não achei nada interessante.

Preciso fazer um robo visitar um site e fazer uma busca nele.
Oq me retornar (html) eu devo tratar e montar um objeto (java).

Qual a forma mais rapida de fazer essa consulta e pegar o conteúdo do site ?
Conhecem bibliotecas ou exemplos ?

Qual o melhor modo para tratar essas informações ?

Algum parser que seja mais indicado ?

Provavelmente virão textos com muitas tags html.

Vlw !!

Já vi um outro parser html além do JTidy, mas não lembro o nome.

Vou procurar, já posto.

Veja aqui:

E aqui:
http://java-source.net/open-source/html-parsers

O jsoup parece ser o mais atual. Acho que vale a pena dar uma olhada nele.

[]'s

Valeu cara !

Oq tenho hoje já utiliza o URLConnection do exemplo que vc deu no outro post.
Mas tava achando ele lento por isso imaginei q tivesse algo mais rapido.
Claro q isso tb depende da conexão e o retorno do outro site.

Sobre o jsoup eu não conhecia e me parece q ele tb já faz a conexão.
Quem sabe ele não utiliza algo mais rapido… :smiley:

Vou fazer uns testes com ele.

Abração !

É verdade, o jsoup já facilita o obtenção das páginas e já faz o parse.
Provavelmente ele usa URLConnection nos bastidores.
Nunca tive problema com velocidade.

Enfim, teste ai.

[]'s

Oq achei lento com o URLConnection foi q pra fazer uma busca em um site e retornar cerca de 500 registros ele demorou +/- 28 seg. :frowning:
Mas é justificável.
Acho eu.