我用麦克风录制了声音,并尝试在我的 Java 程序中区分它们。频率效果很好,但如果我看一下傅立叶变换,似乎应该有更多的特征来区分声音。我不太了解信号处理,也许你可以帮助我。这是两个傅立叶变换的图片。
我知道频率是由最大幅度的指数决定的(希望这是正确的术语)。在第一个傅立叶变换曲线中,它位于 100,第二个位于 12(频率为 1102.5 和 132.3)。但是这两种声音在转换后看起来如此不同,我还能用什么来区分它们呢?
我用麦克风录制了声音,并尝试在我的 Java 程序中区分它们。频率效果很好,但如果我看一下傅立叶变换,似乎应该有更多的特征来区分声音。我不太了解信号处理,也许你可以帮助我。这是两个傅立叶变换的图片。
我知道频率是由最大幅度的指数决定的(希望这是正确的术语)。在第一个傅立叶变换曲线中,它位于 100,第二个位于 12(频率为 1102.5 和 132.3)。但是这两种声音在转换后看起来如此不同,我还能用什么来区分它们呢?
两个备注:
要回答您的问题,音色是区分相同响度和音高的声音的属性。但是,它不是具有明确单位的一维特征。您可以提取的特征是“听起来相似”的事物具有相似的特征。
用于表征音色的常见特征包括:
频谱质心,指示声音将被感知到的“暗”或“亮”程度、频谱扩展(带宽、音调与噪声的度量)以及 3 阶和 4 阶矩(峰度和偏度)。
每个 Bark 带中的能量,或连续 Bark 带之间的能量比。
频谱包络的任何低维描述符,包括自回归系数或梅尔频率倒谱系数。
请参阅本文件的第 6 节。