我一直在研究语音识别,我决定采用 MFCC 方法来解决这个检测某人是在说“是”还是“否”的问题。如前所述(到目前为止我的步骤):
- 读入音频文件
- 将音频信号拆分成块(600 个样本,30 毫秒长)
- 剥离不需要考虑的块(总能量/过零)
所以我将根据这篇论文构建MFCC ,它有以下步骤:
- 预加重
- 框架
- 汉明窗
- 快速傅里叶变换
- 梅尔滤波器组处理
- 离散余弦变换
- Delta 能量和 Delta 光谱
这对我来说很有意义(有点),我将研究这些步骤中的每一个。但是我应该在这个问题的顶部对我已经完成的结果块执行 MFCC(步骤 1、2、3),或者,我是否应该不执行这些步骤而只是从头开始计算 MFCC我还能实现隐马尔可夫模型吗?
另一个问题是,如果我将信号拆分为“帧”(二维向量),生成的 MFCC 将是二维向量还是一维向量?
希望有人可以提供帮助:)!