Trabalhar com grandes matrizes

Question

e ai pessoal, estou necessitando de ajuda!! estou em um projeto q indexa documentos, formando uma matriz do tipo palavras por documentos. Imaginem q eu tenha q indexar 1000 documentos e tendo no total mais de 10000 pal&hellip;

thingol · Answer

Tio, não use uma matriz.
Sério. Se o Google usasse uma matriz ele nem tinha conseguido sair do papel, quanto mais virar um negócio de bilhões de dólares.

É melhor usar o Lucene, que faz isso direitinho para você. Não reinvente a roda.

http://lucene.apache.org/

Para usar o Lucene como um web crawler, cheque o projeto Nutch:

http://lucene.apache.org/nutch/

cos30 · Answer

o cara!! valew pela dica, mas na verdade depois de formar essa matriz eu tenho q realizar uma operação de decomposição (operação de SVD na matriz de termo por documento), então… ainda eu necessito de uma estrutura como matriz… não é apenas um simples crawler!!!

ainda tenho dúvida de como trabalhar com essa matriz (ou outra estrutura)!!??

thingol · Answer

Você precisa determinar as freqüências de cada palavra em cada documento indexado, é isso? Só para quebrar seu galho, vou lhe mostrar uma forma bem simples de fazer isso. Para facilitar, será necessário percorrer cada documento duas vezes (uma para determinar a lista de palavras, a segunda para calc

4 Respostas

Topicos relacionados