哪些特征描述了音频信号?(除了频率和幅度)

信息处理 声音的 傅里叶变换 频率 声音
2022-02-07 19:22:37

我用麦克风录制了声音,并尝试在我的 Java 程序中区分它们。频率效果很好,但如果我看一下傅立叶变换,似乎应该有更多的特征来区分声音。我不太了解信号处理,也许你可以帮助我。这是两个傅立叶变换的图片。

http://i.imgur.com/7npkt.png

我知道频率是由最大幅度的指数决定的(希望这是正确的术语)。在第一个傅立叶变换曲线中,它位于 100,第二个位于 12(频率为 1102.5 和 132.3)。但是这两种声音在转换后看起来如此不同,我还能用什么来区分它们呢?

1个回答

两个备注:

  • 我假设您正在绘制傅里叶变换的实部(或虚部)。使用幅度或平方幅度(功率谱)更为常见。
  • 频谱中的峰值是基频(音高)的一个非常差的测量值。拿一个 440 Hz 的钢琴音符,对其应用陷波滤波器以去除 440 Hz 分量。即使频谱中的峰值现在在 880 Hz(大约),它仍然听起来像一个 440 Hz 的音符 - 是的,在频谱中完全没有的频率!

要回答您的问题,音色是区分相同响度和音高的声音的属性。但是,它不是具有明确单位的一维特征。您可以提取的特征是“听起来相似”的事物具有相似的特征。

用于表征音色的常见特征包括:

  • 频谱质心,指示声音将被感知到的“暗”或“亮”程度、频谱扩展(带宽、音调与噪声的度量)以及 3 阶和 4 阶矩(峰度和偏度)。

  • 每个 Bark 带中的能量,或连续 Bark 带之间的能量比。

  • 频谱包络的​​任何低维描述符,包括自回归系数或梅尔频率倒谱系数。

请参阅本文件的第 6 节