Alguem tem ideia de como capturar todos os links de uma pagina na internet?
É só pegar o código fonte, e usar uma expressão regular pra pegar o que está dentro de href=" ".
certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?
[quote=rlanhellas]certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?[/quote]
Você vai precisar das classes URL e URLConnection, da biblioteca java.net e da classe BufferedReader, da biblioteca io.
Crie um objeto do tipo URL, passando como parâmetro o endereço da página:
/* cria o objeto pag do tipo URL */
URL pag = new URL(endereco_da_pagina);
depois você cria um outro objeto do tipo URLConnection, para abrir a conexão com o objeto que do tipo URL, que fora construído:
/* cria o objeto do tipo URLConnection, e passa o objeto URL */
URLConnection con = pag.openConnection();
depois você precisará de um objeto para leitura:
BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
e depois é só ter uma variável intermediária para ir lendo o código em um loop:
String Intermediaria;
while ((Intermediaria = in.readLine()) != null){
/* Aqui você faz o que quer com o cód. fonte da página. */
}
Obrigado, irei pesquisar mais “profundamente” sobre o assunto