Estou com o seguinte problema: Através do objeto URL, eu consigo pegar o HTML. Só que eu queria transformar o html em XML para que a API JDOM consiga interpretá-lo.
EU consegui fazer na mão: Colocar o cabeçalho, tirar espaços do html, entre outros…
Será que não existe uma API que faça isso não??? Bom eu encontrei uma API da chilkatsoft mas é pago… : (
Pelo que eu encontrei o Lucene é uma das mais famosas e mais usadas bibliotecas para indexação e consulta de textos, disponível em código aberto.
Apesar da facilidade de uso, o Lucene não implementa um webcrawler ou parsers de HTML / XML.