信息处理 - 为什么汉明和汉宁窗最广泛用于语音频谱图？ - 吾爱随笔录

在对语音信号进行短时傅里叶变换时，应用加窗以在两端逐渐减小信号帧，并以最大可获得分辨率为代价来减轻引入的伪影。然后激发窗口设计来控制权衡或频谱时间分辨率，并且文献中介绍了各种优值，如主瓣宽度、旁瓣宽度、每倍频程的旁瓣滚降。

就语音信号而言，通常采用汉明或汉宁窗，我发现的唯一理由是语音信号是窄带信号。我如何证明汉明窗确实比语音信号的矩形窗更好？

在典型的自然语音应用中，说话者的频率在 0 到 200 Hz 之间，对于女性来说可能略高一些。话语通常比产生所需频率的长得多，因此我们可以承受更多帧。我不知道语音所需的分辨率。因此，在语音上使用 Hamming/Hanning 窗口总是更好吗？是否有明确的理由我应该告诉使用矩形窗口制作光谱图的人，为什么他/她不应该这样做（除了学术文献中某些结果的可重复性）？