我了解 DSP 的基础知识,现在正在尝试完成一个语音识别项目。所以我阅读了尽可能多的资源,并得到了一些想法。它们就像:
采样声音并将其分成小帧
计算每帧的 MFCC(其中 13 个)
使用 DTW 来匹配测试和模板模式。
现在,这是我遇到麻烦的事情-
n 帧的 13 个 MFCC 给我留下了 13*n 个 MFCC。我究竟如何在这里使用 DTW?
DTW 给了我两个模式之间的距离。我如何确定它们是否匹配?
我了解 DSP 的基础知识,现在正在尝试完成一个语音识别项目。所以我阅读了尽可能多的资源,并得到了一些想法。它们就像:
采样声音并将其分成小帧
计算每帧的 MFCC(其中 13 个)
使用 DTW 来匹配测试和模板模式。
现在,这是我遇到麻烦的事情-
n 帧的 13 个 MFCC 给我留下了 13*n 个 MFCC。我究竟如何在这里使用 DTW?
DTW 给了我两个模式之间的距离。我如何确定它们是否匹配?
一开始让我警告您,DTW 方法仅适用于口语单词识别。尽管如此,作为一项基本练习还是很有趣的。
我假设您有一个培训文件(模板)数据库,并且您已经为这些文件提取了 MFCC。每个训练文件包含一个给定词类的话语,即“Hello”、“Bye”。我还想象每个班级都有不止一个例子(似是而非)。
以下是您在识别阶段应该做的事情: