Leitura de uma página (em outro site) [Resolvido]

Bom dia pessoal.

Alguem me dar uma luz ai sobre como eu posso acessar um site, ler a página que foi aberta e ler o html/xhtml dela pra poder processa-lo de alguma forma?

Não sei como posso pesquisar por esse tema. Qualquer dica seria de valiosa.

Obrigado.

Procure por URLConnection; há três partes chatas em pegar conteúdo de outro site.

a) O HTML normalmente não é estruturado e não contém, de forma fácil ou então fixa, os dados de que você precisa.
b) Às vezes os dados não estão exatamente na página mas devem ser obtidos rodando-se um javascript no browser (muito comum em sites que usam Ajax)
c) Muitas vezes você precisa fazer algum login nessa tal página, o que pode ser complexo ou até mesmo impossível sem usar o browser.

Veja se os dados que você quer obter podem ser obtidos via web service. Isso é melhor e mais garantido.

Acabei tendo a grande idéia (=D) de pesquisar em ingles

get html source of a web page no google.

Parece que existem varios frameworks de testes de camada web que já fazem todo otrabalho. Seria “só” pegar o stream de leitura da pagina utilizando as bibliotecas do framework.

Consegui realizar meu sonho =D

Utilizei parte de um código que a sun disponibiliza em um tutorial sobre o assunto.

   	URL url = new URL("http://www.google.com");
	BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));

       String inputLine;
	
	while ((inputLine = in.readLine()) != null){
	    if (inputLine.contains("Planar Cleansing")){
	    	System.out.println(inputLine); 
	    }
	}
		
	in.close();

Assim eu consegui dar sysout em todo o código de uma página.