为什么汉明和汉宁窗最广泛用于语音频谱图?

信息处理 窗函数 语音处理 语音识别
2022-02-11 01:26:25

在对语音信号进行短时傅里叶变换时,应用加窗以在两端逐渐减小信号帧,并以最大可获得分辨率为代价来减轻引入的伪影。然后激发窗口设计来控制权衡或频谱时间分辨率,并且文献中介绍了各种优值,如主瓣宽度、旁瓣宽度、每倍频程的旁瓣滚降。

就语音信号而言,通常采用汉明或汉宁窗,我发现的唯一理由是语音信号是窄带信号。我如何证明汉明窗确实比语音信号的矩形窗更好?

在典型的自然语音应用中,说话者的频率在 0 到 200 Hz 之间,对于女性来说可能略高一些。话语通常比产生所需频率的长得多,因此我们可以承受更多帧。我不知道语音所需的分辨率。因此,在语音上使用 Hamming/Hanning 窗口总是更好吗?是否有明确的理由我应该告诉使用矩形窗口制作光谱图的人,为什么他/她不应该这样做(除了学术文献中某些结果的可重复性)?

1个回答

任何窗户(几乎任何窗户)都比棚车窗户好,除非您的光谱是平坦的。语音信号不平坦。

我怀疑 Hamming 和 Hann 是常用的,因为您可以避免 50% 重叠的扇形损失。人们在时间分辨率和频域动态(旁瓣电平)范围之间获得了足够有利的折衷。还有一个事实是,这些窗口在可以追溯到 70 年代的论文中被引用。

您还可以在频域中应用 3 点卷积(3 个系数而不是 N)的寡妇,这在过去内存受限时可能在硬件中具有一些优势。

根据旁瓣电平等特性选择经典的固定窗口。它们不像使用数据本身的自适应窗口。这是相对行人的处理。

总之,棚车窗适用于平坦光谱。