Tratando arquivos HTML com XHTML

Estou desenvolvendo uma classe para analisar um arquivo HTML. Porém, para realizar essa tarefa tenho que converter esse HTML para XHTML, pois o documento original pode ser mal formado (do ponto de vista do XML), ou seja, coisas do tipo:

<b>Nome: <i> Davi </b> </i> <b>Endereço:<i>R. Bla Bla</i>

onde, na primeira linha, o tag vem antes do e, na segunda linha, está faltando um tag . Gostaria de saber se existe algum pacote que eu possa utilizá-lo para corrigir automaticamente essas coisas para mim. Não sei se o JTidy ajudaria nisso, pois até agora só encontrei documentação falando sobre como utilizar o JTidy na verficação dos HTML e não na correção dos problemas citados.

Vai em http://www.macromedia.com, baixa o Dreamweaver, instala, entao vai em File -> Convert -> To XHTML :smiley:

Rafael

Só que preciso encapsular essa característica numa classe e não deixar o usuário saber que essa tarefa foi realizada. :cry:

Acho que o JTidy faz isso :wink:

Olá CV,

Mas acredito que o JTidy é apenas um validador e não um conversor. Você já mexeu nele? Caso já tenha mexido, você pode me passar um exemplo de como faço a conversão usando essa ferramenta?