不同采样率下的 MFCC 窗口大小

信息处理 采样 语音处理 语音识别 mfcc 演讲
2022-01-30 15:40:11

计算 MFCC 时窗口大小的一般建议似乎是 20-40 毫秒。这通常在每秒 16000 个样本的情况下被推荐,因此会导致一个包含 320-640 个样本的窗口。

如果我的输入是每秒 8000 个样本,窗口的时间范围应该以 20-40 毫秒为目标还是样本量应该以 320-640 为目标呢?

我了解该窗口需要具有最短持续时间才能包含较低频率,并且最长持续时间仅限于具有稳定的声音(电话)。仍然更喜欢 40 毫秒而不是 20 毫秒的原因是什么?

什么决定了最小样本量?每秒 8000 个样本的 20 毫秒窗口是 160 个样本,这是否足够?

上下文是语音识别

1个回答

我会根据我的经验回答你的问题。大多数时候,我一直在使用 2 的幂的窗口长度,尝试一些重叠百分比,训练系统并选择性能最佳的系统。

在 16000 Hz 的情况下,我会尝试 256 个样本(16 ms)和 512 个样本(32 ms)。对于 8000 Hz,我的赌注是 256(32 毫秒)。不要忘记尝试一些重叠值,但是,它应该不会有太大变化。

归根结底,重要的是 MFCC 滤波器组的数量和由此产生的系数数量。