在对语音信号进行短时傅里叶变换时,应用加窗以在两端逐渐减小信号帧,并以最大可获得分辨率为代价来减轻引入的伪影。然后激发窗口设计来控制权衡或频谱时间分辨率,并且文献中介绍了各种优值,如主瓣宽度、旁瓣宽度、每倍频程的旁瓣滚降。
就语音信号而言,通常采用汉明或汉宁窗,我发现的唯一理由是语音信号是窄带信号。我如何证明汉明窗确实比语音信号的矩形窗更好?
在典型的自然语音应用中,说话者的频率在 0 到 200 Hz 之间,对于女性来说可能略高一些。话语通常比产生所需频率的长得多,因此我们可以承受更多帧。我不知道语音所需的分辨率。因此,在语音上使用 Hamming/Hanning 窗口总是更好吗?是否有明确的理由我应该告诉使用矩形窗口制作光谱图的人,为什么他/她不应该这样做(除了学术文献中某些结果的可重复性)?