Obtendo dados de uma html

Bom pessoal, eu preciso criar um programa que carregue uma url, pegue o código fonte pegue certos dados…mas como eu pego isso? como eu procuro no codigo fonte obtido?

Eu estou usando o seguinte código

URL url = null; try { url = new URL("http://www.yahoo.com.br"); URLConnection conn = url.openConnection(); InputStream is = url.openStream(); InputStreamReader isr = new InputStreamReader(is); BufferedReader br = new BufferedReader(isr); String linha = br.readLine(); while (linha != null) { System.out.println(linha); linha = br.readLine(); } } catch (IOException ex) { ex.printStackTrace(); } catch (MalformedURLException ex) { ex.printStackTrace(); }

Este código imprime linha por linha do código fonte da pagina, mas como eu procuro nele e obtenho o que eu quero para passar para uma String?

Obrigado

Nimguem?

Varra cada linha do html lido procurando pela string. Vc pode usar o método indexOf() para saber se a string em questão ocorre ou não na linha lida.

Vc precisaria ser mais específico com o que está procurando…

tente usando o indexOf(“string procurada”), talvez ajude

Quando eu fiz isso usei o HttpClient para a conexão e o HtmlParser para a extração dos dados.

Ataxexe tem razão… podes pesquisar inclusive pela árvore DOM do documento.

Detalhe: se isso for um robô de pesquisa de conteúdo, avalie a possibilidade e a necessidade de trabalhar com Apache Lucene. Dá um pouco de trabalho, mas vale MUITO a pena.