信息处理 - 不同采样率下的 MFCC 窗口大小 - 吾爱随笔录

计算 MFCC 时窗口大小的一般建议似乎是 20-40 毫秒。这通常在每秒 16000 个样本的情况下被推荐，因此会导致一个包含 320-640 个样本的窗口。

如果我的输入是每秒 8000 个样本，窗口的时间范围应该以 20-40 毫秒为目标还是样本量应该以 320-640 为目标呢？

我了解该窗口需要具有最短持续时间才能包含较低频率，并且最长持续时间仅限于具有稳定的声音（电话）。仍然更喜欢 40 毫秒而不是 20 毫秒的原因是什么？

什么决定了最小样本量？每秒 8000 个样本的 20 毫秒窗口是 160 个样本，这是否足够？

上下文是语音识别