Bom dia pessoal.
Alguem me dar uma luz ai sobre como eu posso acessar um site, ler a página que foi aberta e ler o html/xhtml dela pra poder processa-lo de alguma forma?
Não sei como posso pesquisar por esse tema. Qualquer dica seria de valiosa.
Obrigado.
Procure por URLConnection; há três partes chatas em pegar conteúdo de outro site.
a) O HTML normalmente não é estruturado e não contém, de forma fácil ou então fixa, os dados de que você precisa.
b) Às vezes os dados não estão exatamente na página mas devem ser obtidos rodando-se um javascript no browser (muito comum em sites que usam Ajax)
c) Muitas vezes você precisa fazer algum login nessa tal página, o que pode ser complexo ou até mesmo impossível sem usar o browser.
Veja se os dados que você quer obter podem ser obtidos via web service. Isso é melhor e mais garantido.
Acabei tendo a grande idéia (=D) de pesquisar em ingles
get html source of a web page no google.
Parece que existem varios frameworks de testes de camada web que já fazem todo otrabalho. Seria “só” pegar o stream de leitura da pagina utilizando as bibliotecas do framework.
Consegui realizar meu sonho =D
Utilizei parte de um código que a sun disponibiliza em um tutorial sobre o assunto.
URL url = new URL("http://www.google.com");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null){
if (inputLine.contains("Planar Cleansing")){
System.out.println(inputLine);
}
}
in.close();
Assim eu consegui dar sysout em todo o código de uma página.