Oi,
Eu preciso de fazer parsing de HTML, a partir de um programa Java, ou seja preciso de uma API que me permita fazer o full parsing identificando (eventualmente para uma estrutura em árvore) o conteúdo de todos os elementos HTML da página (incluindo obviamente elementos complexos ex: listas dentro de tabelas, etc).
Sei que existem alguns parsers nesta situação, mas nenhum deles parece fazer o full parsing. Seria interessante se tivesse código com exemplos.
Obrigado
MP
[quote=marco perez]Oi,
Eu preciso de fazer parsing de HTML, a partir de um programa Java, ou seja preciso de uma API que me permita fazer o full parsing identificando (eventualmente para uma estrutura em árvore) o conteúdo de todos os elementos HTML da página (incluindo obviamente elementos complexos ex: listas dentro de tabelas, etc).
[/quote]
Acho que o JTidy torna qualquer HTML em DOM xml. A partir dai pode ser manipulado com as ferramentas de xml.
Eu atualmente estou usando a biblioteca Jericho Html Parser 2.5 (http://jerichohtml.sourceforge.net/doc/index.html) e por enquanto não tenho do que reclamar. Está atendendo bem as minhas necessidades.
Aindei pesquisando também sobre parsers html para Java e encontrei um componente do próprio Swing que faz parse de HTML, porém nunca usei. Olha o link: http://java.sun.com/products/jfc/tsc/articles/bookmarks/
Abraço!