Pesquisa interna no site

pessoal, gostaria de saber como vcs implementam a opçãio de busca/pesquisa de conteúdo do próprio site web… se o conteúdo deve estar num banco de dados ou em arquivos html mesmo?

tipo, quero disponibilizar um campo onde o usuário coloque palavras chave, daí retorne o links paras as páginas encontradas.

O legal seria ter o conteúdo fora do seu HTML, seja em XML, seja em banco de dados.

Acho que o Lucene pode ajudar. Da uma olhada: http://jakarta.apache.org/lucene/docs/index.html

Marcio Kuchma

[quote=cezarsg]pessoal, gostaria de saber como vcs implementam a opçãio de busca/pesquisa de conteúdo do próprio site web… se o conteúdo deve estar num banco de dados ou em arquivos html mesmo?
[/quote]

Depende. Se seu conteúdo estiver num SGBD, você faz uma busca no SGBD, aproveitando apra fazer toooodas aquelas otimizações bizarras porque essas consultas são caras pra caramba.

Se você estiver usando arquivos, o Lucene pdoe te ajudar bastante, como o Kuchma disse.

[]s

Se vc for usar o lucene para implementar a busca utilizando indices para o conteúdo estático, é uma boa escolha, o lucene é uma ferramenta extremamente poderoza. Porém, atente que vc deverá fazer algum programa que extraia a informação util do seu HTML, não é interessante vc colocar no índice tags HTML, certo? Além disso depois de ter extraído o texto, vc deverá aplicar um stemmer para lingua portuguesa que otimizará muito a qualidade das suas buscas. O stemmer vai extrair apenas a informação útil do texto já extraído do html. Por exemplo, artigos como O, A, um, uma ou preposições não são úteis para o índice e devem ser descartados.

[]'s

renato