Alguem me dar uma luz ai sobre como eu posso acessar um site, ler a página que foi aberta e ler o html/xhtml dela pra poder processa-lo de alguma forma?
Não sei como posso pesquisar por esse tema. Qualquer dica seria de valiosa.
Procure por URLConnection; há três partes chatas em pegar conteúdo de outro site.
a) O HTML normalmente não é estruturado e não contém, de forma fácil ou então fixa, os dados de que você precisa.
b) Às vezes os dados não estão exatamente na página mas devem ser obtidos rodando-se um javascript no browser (muito comum em sites que usam Ajax)
c) Muitas vezes você precisa fazer algum login nessa tal página, o que pode ser complexo ou até mesmo impossível sem usar o browser.
Veja se os dados que você quer obter podem ser obtidos via web service. Isso é melhor e mais garantido.
C
cassionandi
Acabei tendo a grande idéia (=D) de pesquisar em ingles
get html source of a web page no google.
Parece que existem varios frameworks de testes de camada web que já fazem todo otrabalho. Seria “só” pegar o stream de leitura da pagina utilizando as bibliotecas do framework.
C
cassionandi
Consegui realizar meu sonho =D
Utilizei parte de um código que a sun disponibiliza em um tutorial sobre o assunto.