Galera gostaria de saber se existe alguma ferramenta de preferência feito em Java que possa em informar estatisticamente o percentual de meta-dados de um determinado html (ex: <form></form>,<center></center> e etc…) e de dados ”informações propriamente ditas” em uma pagina web???
Não conheço nada parecido, mas se seu HTML estiver sintaticamente correto, você pode simplesmente contar o que são tags e o que são textos, nada muito difícil…ou viajei na batatinha?
gulira
Seria isto mesmo e mais ainda, gostaria de filtrar tudo, caracter por caracter. Tudo isto para saber quantidade de informações uteis que passa pela rede, podendo assim analisar o que eu gasto de trafego para transportar (tag entre utros) de html “meta-dados” e informações “tudo, até caracteres em branco”.
Blz. Então vou ter que fazer na unha mesmo…
Sera q no pacote: javax.swing.text.html tem alguma coisa para me ajuda?? ou eu posso encontrar em um outro pacote???
Mesmos assim valeu, muito Obrigado
pcalcado:
Complicado isso, heim…
Não conheço nada parecido, mas se seu HTML estiver sintaticamente correto, você pode simplesmente contar o que são tags e o que são textos, nada muito difícil…ou viajei na batatinha?
fmeyer
vc pode abrir um arquivo e “pharsear” linha por linha criando uma estrutura com
valores metadados e tags, assim, como se fosse um analisador léxico mas bem mais simples,
ex.
iteração ( percorre caracteres da linha )
se encontrou "<" empilha tag
se encontrou ">" desempilha tag; incrementa tag geral
se (não tem tag empilhada): incrementa caracter
)