SPIDER html ajuda!

Olá amigos há dias tento desenvolver um aplicativo para ler arquivos HTML, tentei algumas bibliotecas, porém a maioria esta MUITO mal documentada ou descontinuada, utilizei as seguintes bilbiotecas , NekoHTML - HTMLParser ? Jtidy, TagSoup entre outras e nada !

Depois segui para javax.swing.text.html, consegui alguma coisa, mais ela apresenta restrições/diferenças na manipulação de arquivos XHTML/HTML !!!

Por fim tentei o HTMLCleaner, um biblioteca que transforma, um arquivo HTML mau formado em xml, para que eu pudesse utilizar alguma API xml para ler os dados, porém mais uma vez me deparei com quase nenhum exemplo em código!

OBSERVAÇÃO: Caso alguém conheça alguma API, bem documentada com exemplos de código, e possa me indicar , eu agradeceria muito !!!

Quando eu precisei achei o HtmlParser o melhor de todos, e ele resolveu meu problema.

Teria como vc me passar algum material a respeito , ou mesmo exemplo em codígo fonte , agradeceria muito, estou muito apertado aqui, e não me dou bem com o javadoc !!!