Em que linguagem vc esta fazendo isso??
Quando eu trabalhava com bioinformatica eu usava bastante Perl.
Primeiro, varios aquivos de sequencias no formato FASTA no seu diretorio, vc vai ter pegar uma lista dos arquivos, com Perl vc pode fazer algo do tipo:
Como o FASTA, vai ser algo do tipo:
>Sequence_Name
ATGCTGACCCCATGCTGACCCCATGCTGACCCC
ATGCTGACCCCATGCTGACCCCATGCTGACCCC
ATGCTGACCCCATGCTGACCCCATGCTGACCCC
TTTAAAACCCTCTGT
Voce tera que ignorar a primeira linha do arquivo, ai eh soh fazer uma regular expression para pegar o valor que vc quiser, vc tem que verificar quantos aminoacidos em sequencia vc vai considerar um match.
Mais ou menos assim:
#!/usr/bin/perl
@list_of_files = `ls *.fasta`;
foreach $file (@list_of_files)
{
open(INPUT, "<", $filename) || die "Can't open file!! buhhhhh!!!! "
@file_content = <INPUT>;
for($i = 1; $i < $#file_content; $i++) {
$line = $file_content[i];
// faz regular expression, se achar, pega o resultado escreve para um arquivo.
}
close(INPUT);
}
PS: Perdoe se estiver alguma coisa errada, faz anos que eu nao programo em Perl e eu nao testei o codigo! 
//Daniel