Pegar links de paginas

rlanhellas · Agosto 7, 2011, 1:17pm

Alguem tem ideia de como capturar todos os links de uma pagina na internet?

Andre_Rosa · Agosto 7, 2011, 1:41pm

É só pegar o código fonte, e usar uma expressão regular pra pegar o que está dentro de href=" ".

rlanhellas · Agosto 7, 2011, 2:07pm

certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?

Andre_Rosa · Agosto 7, 2011, 2:17pm

[quote=rlanhellas]certo, e como pego o fonte da pagina ?
Bom li a respeito e para o que eu preciso o ideal seria usar Web Crawlers, como utilizá-los em java ?[/quote]

Você vai precisar das classes URL e URLConnection, da biblioteca java.net e da classe BufferedReader, da biblioteca io.

Crie um objeto do tipo URL, passando como parâmetro o endereço da página:

/* cria o objeto pag do tipo URL */ URL pag = new URL(endereco_da_pagina);

depois você cria um outro objeto do tipo URLConnection, para abrir a conexão com o objeto que do tipo URL, que fora construído:

/* cria o objeto do tipo URLConnection, e passa o objeto URL */ URLConnection con = pag.openConnection();

depois você precisará de um objeto para leitura:

BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));

e depois é só ter uma variável intermediária para ir lendo o código em um loop:

String Intermediaria; while ((Intermediaria = in.readLine()) != null){ /* Aqui você faz o que quer com o cód. fonte da página. */ }

romarcio · Agosto 7, 2011, 5:38pm

Para capturar a página HTML talvez esse tutorial te ajude capturando-html-de-pagina-web-com-java

rlanhellas · Agosto 8, 2011, 8:22am

Obrigado, irei pesquisar mais “profundamente” sobre o assunto

system · Dezembro 30, 2015, 8:32am

Pegar links de paginas

Cursos de Mobile

Cursos de Programação

Cursos de Front-end

Cursos de DevOps

Cursos de Design & UX

Cursos de Business

Cursos de Data & BI