Oi,
Eu preciso de fazer parsing de HTML, a partir de um programa Java, ou seja preciso de uma API que me permita fazer o full parsing identificando (eventualmente para uma estrutura em árvore) o conteúdo de todos os elementos HTML da página (incluindo obviamente elementos complexos ex: listas dentro de tabelas, etc).
Sei que existem alguns parsers nesta situação, mas nenhum deles parece fazer o full parsing. Seria interessante se tivesse código com exemplos.
Obrigado
MP
Parsers HTML para Java
M
2 Respostas
Oi,
Eu preciso de fazer parsing de HTML, a partir de um programa Java, ou seja preciso de uma API que me permita fazer o full parsing identificando (eventualmente para uma estrutura em árvore) o conteúdo de todos os elementos HTML da página (incluindo obviamente elementos complexos ex: listas dentro de tabelas, etc).
Acho que o JTidy torna qualquer HTML em DOM xml. A partir dai pode ser manipulado com as ferramentas de xml.
R
Eu atualmente estou usando a biblioteca Jericho Html Parser 2.5 (http://jerichohtml.sourceforge.net/doc/index.html) e por enquanto não tenho do que reclamar. Está atendendo bem as minhas necessidades.
Aindei pesquisando também sobre parsers html para Java e encontrei um componente do próprio Swing que faz parse de HTML, porém nunca usei. Olha o link: http://java.sun.com/products/jfc/tsc/articles/bookmarks/
Abraço!
Criado 25 de janeiro de 2008
Ultima resposta 27 de jan. de 2008
Respostas 2
Participantes 3
Alura Git Flow: entenda o que é, como e quando utilizar Entenda o que é Git Flow, como funciona seu fluxo com branches como Master, Develop, Feature, Release e Hotfix, além de vantagens e desvantagens.
Casa do Codigo Ontologias e Web Semantica: Do conceito a aplicacao Por Ivam Galvao Filho — Casa do Codigo