Fiz umas pesquisas no google, mas não achei nada interessante.
Preciso fazer um robo visitar um site e fazer uma busca nele.
Oq me retornar (html) eu devo tratar e montar um objeto (java).
Qual a forma mais rapida de fazer essa consulta e pegar o conteúdo do site ?
Conhecem bibliotecas ou exemplos ?
Qual o melhor modo para tratar essas informações ?
Algum parser que seja mais indicado ?
Provavelmente virão textos com muitas tags html.
Vlw !!
Já vi um outro parser html além do JTidy, mas não lembro o nome.
Vou procurar, já posto.
Veja aqui:
E aqui:
http://java-source.net/open-source/html-parsers
O jsoup parece ser o mais atual. Acho que vale a pena dar uma olhada nele.
[]'s
Valeu cara !
Oq tenho hoje já utiliza o URLConnection do exemplo que vc deu no outro post.
Mas tava achando ele lento por isso imaginei q tivesse algo mais rapido.
Claro q isso tb depende da conexão e o retorno do outro site.
Sobre o jsoup eu não conhecia e me parece q ele tb já faz a conexão.
Quem sabe ele não utiliza algo mais rapido… 
Vou fazer uns testes com ele.
Abração !
É verdade, o jsoup já facilita o obtenção das páginas e já faz o parse.
Provavelmente ele usa URLConnection nos bastidores.
Nunca tive problema com velocidade.
Enfim, teste ai.
[]'s
Oq achei lento com o URLConnection foi q pra fazer uma busca em um site e retornar cerca de 500 registros ele demorou +/- 28 seg. 
Mas é justificável.
Acho eu.