Opa pessoal, bom dia! Eu gostaria de algumas sugestões de vocês. Vou explicar o caso. Estou desenvolvendo um trabalho de conclusão de curso e nele estou trabalhando com bases de dados biológicos. Estas bases de dados biológicos vem em arquivo texto, e o objetivo é armazenar eles em um banco de dados. Os arquivos tem várias sequencias com a aseguinte estrutura:
- Um cabeçalho precedido de >
- Uma sequência de aminoácios
Um exemplo seria:
>Isso e um cabecalho
SEQUENCIASEQUENCIASEQUENCIA
SEQUENCIASEQUENCIASEQUENCIA
SEQUENCIASEQUENCIASEQUENCIA
SEQUENCIASEQUENCIASEQUENCIA
SEQUENCIASEQUENCIASEQUENCIA
SEQUENCIASEQUENCIASEQUENCIA
O problema, é que tenho vários arquivos texto destes e entre eles há redundância, assim, tenho q ao pegar um cabeçaho, fazer uma seleção no banco de dados para ver se ele existe, se existir não insiro, se não existir eu insiro. Tenho que fazer isso também para as sequencias. Fazer isso de forma serial, utilizando um único computador leva muito tempo (foi tentado antes na Universidade), então meu projeto consiste em paralelizar isso utilizando as várias máquinas do laboratório de computação. Escolhi utilizar Java RMI… A "casca" do sistema eu ja fiz, já consigo comunicação utilizando RMI, pegar o status do servidor… Agora eu preciso implementar a solução, que é o processo para a geração do banco de dados utilizando computação distribuída. Alguem teria alguma sugestão?
Desde já agradeço! 