HTML para XML JDOM

Bom dia, galera!

Estou com o seguinte problema: Através do objeto URL, eu consigo pegar o HTML. Só que eu queria transformar o html em XML para que a API JDOM consiga interpretá-lo.

EU consegui fazer na mão: Colocar o cabeçalho, tirar espaços do html, entre outros…

Será que não existe uma API que faça isso não??? Bom eu encontrei uma API da chilkatsoft mas é pago… : (

Alguém pode me ajudar??

Vlw…

Eu acho que o Lucene cai como uma luva para o que você pretende fazer. Dá uma procurada na net sobre ele.

Valeu jaboot… vou pesquisar sobre esse Lucene, e posto aqui se obtive sucesso ou não!

Mais alguém tem alguma dica?

Pelo que eu encontrei o Lucene é uma das mais famosas e mais usadas bibliotecas para indexação e consulta de textos, disponível em código aberto.
Apesar da facilidade de uso, o Lucene não implementa um webcrawler ou parsers de HTML / XML.

Eu preciso de um parser de HTML para XML!