我正在尝试比较 2 个语音样本并根据相似性对它们进行评分。想想有人试图重复一个短语,然后比较这两个音频文件。
我首先实现了 MFCC (http://en.wikipedia.org/wiki/Mel-frequency_cepstrum) 算法。我计算了两个音频样本的 MFCC,这给了我大约 500 帧音频(每帧 10 毫秒,与前一个有 30% 的重叠),具有 14 个左右的 MFCC 系数。所以每个音频信号都有一个 500x14 的矩阵。
然后我做了简单地区分矩阵的简单方法。这并没有给出非常有希望的结果。当我比较完全不同的音频样本(说出不同的短语)时,有一半的时间,我得到的差异比比较我尝试重复相同短语的音频要小!这显然是倒退的,不能给我一个好的评分算法。
我该如何改进呢?我认为 MFCC 是语音处理中非常重要的一部分,但显然我需要用它做更多的事情。