傅里叶变换通常用于声音的频率分析。但是,在分析人类对声音的感知时,它有一些缺点。例如,它的频率箱是线性的,而人耳对频率的响应是对数的,而不是线性的。
与傅里叶变换不同,小波变换可以修改不同频率范围的分辨率。小波变换的特性允许对较低频率提供较大的时间支持,同时为较高频率保持较短的时间宽度。
Morlet 小波与人类的听觉感知密切相关。它可以应用于音乐转录并产生非常准确的结果,这是使用傅里叶变换技术无法实现的。它能够捕捉到重复和交替音乐音符的短脉冲,每个音符都有明确的开始和结束时间。
常数 Q 变换(与Morlet 小波变换密切相关)也非常适合音乐数据。由于变换的输出是相对于对数频率的有效幅度/相位,因此有效覆盖给定范围所需的频谱箱更少,这在频率跨越几个八度音阶时证明是有用的。
该变换表现出频率分辨率降低,频率更高的频段,这对于听觉应用来说是理想的。它反映了人类的听觉系统,因此在较低频率下光谱分辨率更好,而在较高频率下时间分辨率提高。
我的问题是这样的:是否还有其他与人类听觉系统非常相似的变换?有没有人试图设计一种在解剖学/神经学上尽可能与人类听觉系统匹配的变换?
例如,众所周知,人耳对声音强度有对数响应。众所周知,等响度轮廓不仅随强度变化,而且随频谱分量的频率间隔而变化。即使总声压保持不变,在许多关键频带中包含频谱分量的声音也会被认为更响亮。
最后,人耳具有频率相关的有限时间分辨率。也许这也可以考虑在内。