HTML para XML JDOM

3 respostas
resende_net

Bom dia, galera!

Estou com o seguinte problema: Através do objeto URL, eu consigo pegar o HTML. Só que eu queria transformar o html em XML para que a API JDOM consiga interpretá-lo.

EU consegui fazer na mão: Colocar o cabeçalho, tirar espaços do html, entre outros…

Será que não existe uma API que faça isso não??? Bom eu encontrei uma API da chilkatsoft mas é pago… : (

Alguém pode me ajudar??

Vlw…

3 Respostas

jaboot

Eu acho que o Lucene cai como uma luva para o que você pretende fazer. Dá uma procurada na net sobre ele.

resende_net

Valeu jaboot… vou pesquisar sobre esse Lucene, e posto aqui se obtive sucesso ou não!

Mais alguém tem alguma dica?

resende_net

Pelo que eu encontrei o Lucene é uma das mais famosas e mais usadas bibliotecas para indexação e consulta de textos, disponível em código aberto.
Apesar da facilidade de uso, o Lucene não implementa um webcrawler ou parsers de HTML / XML.

Eu preciso de um parser de HTML para XML!

Criado 22 de março de 2012
Ultima resposta 23 de mar. de 2012
Respostas 3
Participantes 2