Leitura e trabalho em código fonte de uma página HTML

6 respostas
T

Olá, povo!

Procurei em muitos lugares e infelizmente não obtive sucesso no que estou precisando.

Estou querendo fazer um programa que acesse determinada página web, pegue o HTML de tal página e trabalhe em cima das informações do HTML.

Um exemplo:

public static void main(String[] args) throws Exception {

		Desktop desktop = null;
		desktop = Desktop.getDesktop();
		URI uri = null

uri = new URI("www.g1.com.br");
	desktop.browse(uri);
}

No código acima, ele simplesmente acessa tal página colocada como STRING, abrindo o navegador padrão da máquina.
Eu quero que, além de fazer isso, ele pegue o html da página e retorne, por exemplo, tudo o que estiver dentro das tags .

Alguém tem idéia de como fazer??

Um abraço e obrigado desde já!

6 Respostas

E

Use URLConnection ou HttpClient da apache

:wink:

abs,

Evandro

T

Evandro_Contato:
Use URLConnection ou HttpClient da apache

:wink:

abs,

Evandro

Desculpe, mas eu nunca usei essa biblioteca…tem algum exemplo para este meu caso?

E

Sim,

Vc consegue ler como se fosse um arquivo texto

http://www.java2s.com/Code/Java/Apache-Common/HttppostmethodExample.htm

abs,

Evandro

Andre_Rosa

Use a classe URLConnection e a classe URL, ambas da biblioteca java.net. Com relação ào filtro, referente às TAGs , por exemplo, você pode usar expressões regulares. Procure pela classe regex, da biblioteca java.util.

T

Você já usou isso?

To com problemas neste mesmo código de exemplo…Erro de imports.

Tenho de baixar algum jar e adicionar ao build path?

Andre_Rosa

TreTaA:
Você já usou isso?

To com problemas neste mesmo código de exemplo…Erro de imports.

Tenho de baixar algum jar e adicionar ao build path?

Você ao menos pesquisou pelo que sugeri? Apenas com aquilo você faz tudo isso que você quer.

Criado 27 de outubro de 2011
Ultima resposta 28 de out. de 2011
Respostas 6
Participantes 3