Este trabalho visa construir um sistema automático de exploração de páginas HTML. A partir de um URL base e de um índice que indica a profundidade da pesquisa o programa deve ler essa página e todas as outras que são apontadas por esta (até ao nível de profundidade definido). O programa deve fornecer dados como:
Número de tags existentes
Número de imagens
Contar o número de vezes que aparece uma determinada palavra
tenho dificuldade em como contar o numero de plavavras, e a profundidade de um site.
8O
Cara pra isso vc vai precisar de conhecimento
de manipulação de Strings
tipo StringTokenizer, com esse método vc pode solucionar
algumas de suas necessidades, por exemplo no reconhecimento
de tags…
quanto a contar palavras vc precisa de um algoritmo de busca
que pegue uma palavra e varra o resto do código da pagina
e armazene em um contador o número de vezes que a palavra
foi encontrada
da uma olhada em manipulação de string’s
isso vai ajudar, se eu achar algum exemplo
eu mando um link ou posto algo aki
O que vc quer fazer, deve agir como um compilador… ele vai fazer uma análise sintática do código de uma página e quando ele encontrar o par < e >, ira contar uma tag. Quando dentro dessa tag ele encontrar o href, ele ira abrir uma thread que analisará o código que essa referencia aponta (pode ser um email ou outrá pagina)
faça com que cada thread tenha uma variável com o valor de sua profundidade…
assim vc pode comparar de a profundidade atual é < que a desejada antes de disparar uma nova thread para analisar outra página.