HttpClient com HtmlParse r

Olá pessoas,

  Procurei de diversas formas uma maneira de usar o HmtlParser para filtrar os dados de uma página que recebo via HttpClient. Não achei nenhum tutorial ou exemplo com códigos de HtmlParser pra fazer isso. Por exemplo, meu HttpClient tem uma url com um site X, eu consigo ler todo html desse site e esse html todo é jogado pra dentro de uma String... como tratar essa String pra capturar determinada informação dessa html ? Se alguem tiver algum código de exemplo... valeu ae!

Ninguem pode ajudar?

Oi, para pegar o conteúdo de um site faça assim:

        HttpClient httpclient = new DefaultHttpClient();

        HttpGet httpget = new HttpGet("http://www.seusite.com.br");

        ResponseHandler<String> responseHandler = new BasicResponseHandler();
        String strHtml = httpclient.execute(httpget, responseHandler);

        httpclient.getConnectionManager().shutdown(); 

Todo o html será salvo em strHtml

Para buscar uma parte especifica vai ter que usar expressões regulares

Pattern padrao = Pattern.compile(“o que vc procura”);

        Matcher pesquisa = padrao.matcher(strHtml);

        String resposta = "";

        while (pesquisa.find() and contador <= 5) {
	resposta = resposta + " | " + pesquisa.start() + " <- " + pesquisa.group() + "->" + pesquisa.end();
        }

na variável resposta vai aparecer: caracter inicio | o que vc procura | caracter fim

Estou tendo dificuldades de encontrar exemplos e ajuda, o pior são os “legais” que responde “procura no google”, penso que o moderador do fórum deveria cortar este tipo de resposta/usuário!

Na verdade ele está usando o HtmlParser, então tem muita coisa abstraída pra ele já.

Sugiro que leia os próprios exemplos e o JavaDoc no site do HtmlParser, eles me ajudaram bastante quando precisei usar essa ferramenta.