在音频样本的成帧中,在给出帧大小的同时需要什么帧移位?

信息处理 语音识别 语音处理 语音合成
2022-02-06 21:39:23

在音频特征提取中的音频样本的分帧中,在给定帧大小的同时需要移帧吗?即帧大小= 20ms, 帧移位= 10ms。而不是移动/重叠为什么我们不能使用连续帧然后重叠?

1个回答
  1. 通过执行重叠窗口,我们人为地增加了我们的时间分辨率(时间上更大的特征粒度)。这在帧持续时间很长(时间分辨率差,频率分辨率非常好)时特别有用,因此会产生一种额外的“时间分辨率”。
  2. 通常没有人使用矩形窗口,而是使用其他类型,例如 Hamming、Hann 等。您可能知道,窗口的两端都倾向于零样本。通过做数据,你会丢失一些数据。让我们假设您有一些非常短的事件要检测,在两个窗口连接处。如果没有重叠,那么这些样本将几乎被删除。但是如果你执行 50% 的重叠,就会有另一个窗口,就在中间,你不会丢失任何东西。