Senhores,
estou trabalhando com um arquivo de entrada que possui aproximadamente 600Mb de dados (arquivo FASTA). Esse arquivo de entrada possui muitos reads (620000) aproximadamente. E estamos tentando estudar as combinações de alinhamentos possíveis. Então basicamente, relacionamos cada linha contra todo o arquivo (620000^2).
Para encurtar a história, tentei utilizar:
Java Caching System (http://jakarta.apache.org/jcs/).
H2 Database (http://www.h2database.com/html/main.html)
Derby (JavaDB)
MySQL
Todos falham em um determinado momento… não sendo possível criar mais objetos, ou deixando a aplicação lenta demais para obter algum resultado positivo.
Tentei também fazer uso da API desenvolvidas pelo projeto biojava (www.biojava.org)
Até o momento não tive nenhum resultado muito, digamos, agradável. E ao mesmo tempo, o encontrei estudos indicando que o Java possui bom desempenho para trabalhar com esses algoritmos (http://shootout.alioth.debian.org/u32q/benchmark.php?test=regexdna&lang=all).
Alguma sugestão de API, recurso ou técnica? Por hora, não posso utilizar clusterização… o que é uma pena.
vw