我在理解作者如何获得本文中音频歌曲的起始信封时遇到问题。
下面引用了有问题的整个部分:
首先将输入声音重新采样到 8 kHz,然后我们使用 32 ms 的窗口和帧之间的 4 ms 提前计算短期傅里叶变换 (STFT) 幅度(频谱图)。然后通过频谱图值的加权求和映射到 40 个 Mel 波段,将其转换为近似的听觉表示 [Ellis, 2005]。我们使用听觉频率尺度来平衡每个频带的感知重要性。梅尔谱图转换为 dB,并在每个频带中计算沿时间的一阶差分。负值设置为零(半波整流),然后在所有频带上对剩余的正差值求和。该信号通过一个截止频率约为 0.4 Hz 的高通滤波器,使其局部为零均值,并通过与大约 20 ms 宽的高斯包络进行卷积来平滑。这给出了一个作为时间函数的一维起始强度包络,它响应于在近似听觉频带上总和的能量的成比例增加
我对程序第一部分的过程的理解是,我们的 44.1KHz 音频信号被重新采样到 8KHz,然后我们对其执行重叠的寡妇 STFT 操作,因此我们得到傅立叶变换系数。
但我真的不知道程序的第二部分发生了什么:
我认为我们然后改变这些系数,使新的傅立叶变换系数现在在感知上得到平衡(即系数现在是人的耳朵所感知的)。然后转换所谓的合成“梅尔谱图”到dB,并在每个频带中计算沿时间的一阶差。然后将负值设置为零(半波整流),然后将剩余的正差在所有频带上求和。
为什么以及如何计算一阶差分?这有什么用?我对 Mel 量表没有广泛的了解,它是所谓的“频带”,所以这部分很难理解。
该信号通过一个截止频率约为 0.4 Hz 的高通滤波器,使其局部为零均值,并通过与大约 20 ms 宽的高斯包络进行卷积来平滑。这给出了一个作为时间函数的一维起始强度包络,它响应于在近似听觉频带上总和的能量的成比例增加
为什么我们需要信号是局部零均值的?