Ajudem-me! Construtor de dicionário da Web

Este trabalho visa construir um sistema automático de exploração de páginas HTML. A partir de um URL base e de um índice que indica a profundidade da pesquisa o programa deve ler essa página e todas as outras que são apontadas por esta (até ao nível de profundidade definido). O programa deve fornecer dados como:

  • Número de tags existentes
  • Número de imagens
  • Contar o número de vezes que aparece uma determinada palavra

tenho dificuldade em como contar o numero de plavavras, e a profundidade de um site.

apenas estou a conseguir pesquisar o codigo fonte

obrigado

8O
Cara pra isso vc vai precisar de conhecimento
de manipulação de Strings

tipo StringTokenizer, com esse método vc pode solucionar
algumas de suas necessidades, por exemplo no reconhecimento
de tags…

quanto a contar palavras vc precisa de um algoritmo de busca
que pegue uma palavra e varra o resto do código da pagina
e armazene em um contador o número de vezes que a palavra
foi encontrada

da uma olhada em manipulação de string’s
isso vai ajudar, se eu achar algum exemplo
eu mando um link ou posto algo aki

flw
Erko Bridee

O que vc quer fazer, deve agir como um compilador… ele vai fazer uma análise sintática do código de uma página e quando ele encontrar o par < e >, ira contar uma tag. Quando dentro dessa tag ele encontrar o href, ele ira abrir uma thread que analisará o código que essa referencia aponta (pode ser um email ou outrá pagina)

faça com que cada thread tenha uma variável com o valor de sua profundidade…
assim vc pode comparar de a profundidade atual é < que a desejada antes de disparar uma nova thread para analisar outra página.

espero ter ajudado…
[]s