Aplicação que necessita de muitos Gb, alguma sugestão?

Senhores,

estou trabalhando com um arquivo de entrada que possui aproximadamente 600Mb de dados (arquivo FASTA). Esse arquivo de entrada possui muitos reads (620000) aproximadamente. E estamos tentando estudar as combinações de alinhamentos possíveis. Então basicamente, relacionamos cada linha contra todo o arquivo (620000^2).

Para encurtar a história, tentei utilizar:
Java Caching System (http://jakarta.apache.org/jcs/).
H2 Database (http://www.h2database.com/html/main.html)
Derby (JavaDB)
MySQL

Todos falham em um determinado momento… não sendo possível criar mais objetos, ou deixando a aplicação lenta demais para obter algum resultado positivo.

Tentei também fazer uso da API desenvolvidas pelo projeto biojava (www.biojava.org)

Até o momento não tive nenhum resultado muito, digamos, agradável. E ao mesmo tempo, o encontrei estudos indicando que o Java possui bom desempenho para trabalhar com esses algoritmos (http://shootout.alioth.debian.org/u32q/benchmark.php?test=regexdna&lang=all).

Alguma sugestão de API, recurso ou técnica? Por hora, não posso utilizar clusterização… o que é uma pena.

3 Respostas

fre_d 9 de jun. de 2009

O arquivo é atualizado periodicamente ?

Já pensou em usar o Apache Lucene ?

Marky.Vasconcelos 9 de jun. de 2009

Esperar pelo Java 7 e a nova API de I/O.

Até onde sei eles pretendem resolver alguns problemas como esse.

mochuara 9 de jun. de 2009

Defina melhor “trabalhando”?

3 Respostas

Topicos relacionados