关于语音信号的 MFCC 特征

信息处理 mfcc
2022-02-03 06:39:03

我正在尝试实现语音识别,但我遇到了几个问题:

  1. MFCC 有 12 个系数。他们的名字是什么?
  2. MFCC 系数的取值范围是多少?
  3. 如果我想以图形方式关联 MFCC 系数,它们边缘的权重单位是什么?
1个回答
  1. 您可以拥有任意数量的 MFCC 系数,12 只是一个广泛使用的数字。正如您可能知道的那样(或者如果没有,请参考旧答案),系数是通过拟合余弦来获得的,以记录滤波器组中的能量。一般12个就够了,多了也不会提高识别率。最好计算它们的导数(Δ'沙ΔΔ跨越时间)。关于名称 - 它们只是 MFCC 的(第一、第二等)。虽然系数c0通常称为能量
  2. 关于范围的问题并不容易回答。通常在我的应用程序中,它们位于[12, 12]. 虽然如果你对你的执行倒谱均值归一化,那么你可以期望它们具有高斯分布的值95%其中在[2, 2].
  3. 我真的不明白这个问题 - 你必须更具体地说明你在问什么。什么边缘?