计算 MFCC 时窗口大小的一般建议似乎是 20-40 毫秒。这通常在每秒 16000 个样本的情况下被推荐,因此会导致一个包含 320-640 个样本的窗口。
如果我的输入是每秒 8000 个样本,窗口的时间范围应该以 20-40 毫秒为目标还是样本量应该以 320-640 为目标呢?
我了解该窗口需要具有最短持续时间才能包含较低频率,并且最长持续时间仅限于具有稳定的声音(电话)。仍然更喜欢 40 毫秒而不是 20 毫秒的原因是什么?
什么决定了最小样本量?每秒 8000 个样本的 20 毫秒窗口是 160 个样本,这是否足够?
上下文是语音识别