Pegar só o necessário num código HTML

Bom gente…

O seguinte, to fazendo um programa que ele meio que filtra um código HTML de uma URL que pego e só salvo as informações necessários que preciso.

Um exemplo, eu entro num site que mostra meus dados, tipo uma tag com escrito “Nome” e depois vem o resultado que seria meu nome “Rafael”
e eu queria o que, Imprimir só o “Rafael” que ele da de resultado

eu já fiz um programa desse e de certo, só que o que fiz era simples num tinha tanto informação, agora o outro que to fazendo tem muita informação tem até um outro link dentro que tem mais informações que preciso

alguém tem ideia, ou entendeu o que preciso…rsrsrs

Se eu entendi bem… vc precisa dar uma estuda em expressões regulares cara… vão pegar oque você quiser. XD

Isso deve ajudar: http://jsoup.org/

angeliski - Achei bastante coisas sobre expressão regular, so que não achei nada que me ajude…até fiz um teste…mas num deu certo…rsrs

norbAns - Eu li o link que passo, achei legal, vou fazer uns teste.

exatamente :slight_smile:

eu entendi e tal como funciona o jsoup…só que o que eu preciso num conseguir implementa

exemplo…o programa que fiz loga na URL e me retorna o codigo HTML logado, dai pra frente preciso capturar os valores que preciso entre as tag expecificas.

exatamente :)[/quote]

Da hora! Eu não conhecia. :smiley:

[quote=RafaTeko]eu entendi e tal como funciona o jsoup…só que o que eu preciso num conseguir implementa

exemplo…o programa que fiz loga na URL e me retorna o codigo HTML logado, dai pra frente preciso capturar os valores que preciso entre as tag expecificas.[/quote]

Leia o cookbook disponível no site, tem realmente tudo o que vc precisa.

Document doc = Jsoup.connect("http://quebralink.net").get();
String resul = doc.select("body").html().trim();
// ou
String resul =doc.getElementById("filename").attr("href").toString();

da pra usar de varias maneiras, olhe a documentação

gente, tem como alguém só colocar um exemplo de como ficaria

por que todos os jeitos que fiz, ela imprimo tudo em branco, e não me retorna o que eu quero

tipo os dados que quero está entre


mas ele apaga tudo e num sei o que posso fazer
Elements td = doc.select("td");

??

Creio que isto possa ajuda-lo: http://mozillaparser.sourceforge.net/

exatamente :)[/quote]

Da hora! Eu não conhecia. :smiley: [/quote]

Cara, fala sério, tu é o irmão do “para nossa alegria!!!” né? hehehehe

gente, acho que to sendo muito ignorante…mas não to conseguindo ainda pegar nenhum resultado que quero
ele não pega nada entre as tags

meu codigo retorna o codigo html e assim que retorna, jogo pra imprimir, faço no navegado, lá mostra as informações que preciso, só que não consigo esse resultado

eu tinha feito um já, mais foi num site bem simples e era facil, mas o mesmo codigo que que usei no outro num da certo nesse…ele retorna todo bagunçado e esses que voces me mostro não consigo nenhum resultado com ele…

Document d = Jsoup.parse(suaString - no caso o html da página);

ai dependendo do que você precisa você pode ser mais ou menos especifico.

exemplo:

valor =(d.select("table thead tr th b").get(0).text());
valor =(d.select("table tbody tr th b").get(0).text());

no caso de querer pegar td:

valor =(d.select("td").get(0).text());

e vai aumentando o índice até chegar onde quer…

get(1) get(2) get(3) …

por expressão regular seria algo do tipo:

[code]static Pattern x = Pattern.compile(“Por algum texto que precede a informação que você quer[^>]>[^>]>([^<]*)”, Pattern.MULTILINE);

Matcher m = x.matcher(seuCodigoHtml);
if (m.find()) {

}
[/code]

Gente desculpa a demora nesse topico, é que peguei outro projeto para fazer e parei esse por um tempo

agora voltei e conseguir limpa todas as tags, só que agora o outro problema é que no meio do HTML tem os javascript e isso eu num consigo apagar
como posso fazer para apagar? no caso esse num preciso de nada, quero só apagar mesmo