哪种变换最能模仿人类的听觉系统?

信息处理 傅里叶变换 频谱 小波 音乐 心理声学
2022-01-01 08:32:54

傅里叶变换通常用于声音的频率分析但是,在分析人类对声音的感知时,它有一些缺点。例如,它的频率箱是线性的,而人耳对频率的响应是对数的,而不是线性的。

与傅里叶变换不同,小波变换可以修改不同频率范围的分辨率。小波变换的特性允许对较低频率提供较大的时间支持,同时为较高频率保持较短的时间宽度。

Morlet 小波与人类的听觉感知密切相关。它可以应用于音乐转录并产生非常准确的结果,这是使用傅里叶变换技术无法实现的。它能够捕捉到重复和交替音乐音符的短脉冲,每个音符都有明确的开始和结束时间。

常数 Q 变换(与Morlet 小波变换密切相关)也非常适合音乐数据由于变换的输出是相对于对数频率的有效幅度/相位,因此有效覆盖给定范围所需的频谱箱更少,这在频率跨越几个八度音阶时证明是有用的。

该变换表现出频率分辨率降低,频率更高的频段,这对于听觉应用来说是理想的。它反映了人类的听觉系统,因此在较低频率下光谱分辨率更好,而在较高频率下时间分辨率提高。

我的问题是这样的:是否还有其他与人类听觉系统非常相似的变换?有没有人试图设计一种在解剖学/神经学上尽可能与人类听觉系统匹配的变换?

例如,众所周知,人耳对声音强度有对数响应众所周知,等响度轮廓不仅随强度变化,而且随频谱分量的频率间隔而变化。即使总声压保持不变,在许多关键频带中包含频谱分量的声音也会被认为更响亮。

最后,人耳具有频率相关的有限时间分辨率也许这也可以考虑在内。

1个回答

在设计此类转换时,应考虑相互竞争的利益:

  • 对人类听觉系统的保真度(因人而异),包括非线性甚至混乱的方面(耳鸣)
  • 分析部分的数学公式的简单性
  • 离散化它或允许快速实现的可能性
  • 存在一个合适的稳定逆

最近有两个设计引起了我的注意: Auditory-motivated Gammatone wavelet transform , Signal Processing, 2014

连续小波变换 (CWT) 提供良好的时间和频率定位的能力使其成为信号时频分析的流行工具。小波表现出恒定 Q 特性,外周听觉系统中的基底膜滤波器也具有这种特性。基底膜过滤器或听觉过滤器通常由 Gammatone 函数建模,该函数为实验确定的响应提供了良好的近似值。从这些滤波器派生的滤波器组称为 Gammatone 滤波器组。一般来说,小波分析可以比作滤波器组分析,因此标准小波分析和 Gammatone 滤波器组之间存在有趣的联系。然而,Gammatone 函数并不完全符合小波的条件,因为它的时间平均值不为零。我们展示了如何用 Gammatone 函数构造真正的小波。我们分析了诸如可接受性、时间带宽积、消失矩等属性,这些属性在小波的上下文中特别相关。我们还展示了所提出的听觉小波是如何作为由具有常数系数的线性微分方程控制的线性、移位不变系统的脉冲响应产生的。我们提出了所提议的 CWT 的模拟电路实现。我们还展示了 Gammatone 派生的小波如何用于奇异性检测和瞬态信号的时频分析。我们还展示了所提出的听觉小波是如何作为由具有常数系数的线性微分方程控制的线性、移位不变系统的脉冲响应产生的。我们提出了所提议的 CWT 的模拟电路实现。我们还展示了 Gammatone 派生的小波如何用于奇异性检测和瞬态信号的时频分析。我们还展示了所提出的听觉小波是如何作为由具有常数系数的线性微分方程控制的线性、移位不变系统的脉冲响应产生的。我们提出了所提议的 CWT 的模拟电路实现。我们还展示了 Gammatone 派生的小波如何用于奇异性检测和瞬态信号的时频分析。

ERBlet 变换:具有完美重建的基于听觉的时频表示,ICASSP 2013

本文描述了一种获得声音信号的感知动机和完全可逆的时频表示的方法。基于框架理论和最近的非平稳 Gabor 变换,将分辨率随频率变化的线性表示公式化并实现为非均匀滤波器组。为了匹配人类听觉时频分辨率,该变换使用在心理声学“ERB”频率尺度上等距分布的高斯窗。此外,该变换具有可适应的分辨率和冗余。模拟表明,即使每个 ERB 使用一个滤波器和非常低的冗余 (1.08),也可以使用快速迭代方法和预处理来实现完美的重建。

我还要提一下:

基于听觉的音频信号处理变换, WASPAA 2009

本文提出了一种基于听觉的变换。通过分析过程,变换将时域信号转换为一组滤波器组输出。滤波器组的频率响应和分布与耳蜗基底膜中的相似。信号处理可以在分解的信号域中进行。通过合成过程,可以通过简单的计算将分解后的信号合成回原始信号。此外,还提出了用于正向和逆变换的离散时间信号的快速算法。该变换已在理论上得到认可并在实验中得到验证。给出了一个降噪应用的例子。所提出的变换对背景和计算噪声具有鲁棒性,并且没有音调谐波。