Reconhecer texto num ficheiro de audio

Boas

Alguém me pode dar algumas luzes em como faço para converter audio em texto sem usar bibliotecas disponiveis, só com as bibliotecas de raíz (foi sugerido usar python)?
Deve ser elaborado do seguinte modo, fazer a segmentação do sinal, identificação de modelos AR usando o algoritmo de Levinson-Durbin, calculo de distância de Itakura-Saito, e alinhamento temporal dinâmico (Dynamic Time Warping).
Queria mesmo saber como começo, e o que fazer, alguém tem pseudo código para ter algumas ideias?
O objectivo é reconhecer palavras isoladas (talvez só umas 20 palavras) pronunciadas por uma pessoa e talvez converter cada uma das palavras numa acção.
Por exemplo, a pessoa diz o número 1, e é imprimido esse número na consola.

Desde já muito obrigado

Topicos relacionados