Pegar links de paginas

Alguem tem ideia de como capturar todos os links de uma pagina na internet?

É só pegar o código fonte, e usar uma expressão regular pra pegar o que está dentro de href=" ".

certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?

[quote=rlanhellas]certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?[/quote]

Você vai precisar das classes URL e URLConnection, da biblioteca java.net e da classe BufferedReader, da biblioteca io.

Crie um objeto do tipo URL, passando como parâmetro o endereço da página:

/* cria o objeto pag do tipo URL */ URL pag = new URL(endereco_da_pagina);

depois você cria um outro objeto do tipo URLConnection, para abrir a conexão com o objeto que do tipo URL, que fora construído:

/* cria o objeto do tipo URLConnection, e passa o objeto URL */ URLConnection con = pag.openConnection();

depois você precisará de um objeto para leitura:

BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));

e depois é só ter uma variável intermediária para ir lendo o código em um loop:

String Intermediaria; while ((Intermediaria = in.readLine()) != null){ /* Aqui você faz o que quer com o cód. fonte da página. */ }

Para capturar a página HTML talvez esse tutorial te ajude capturando-html-de-pagina-web-com-java

Obrigado, irei pesquisar mais “profundamente” sobre o assunto