简单的答案是,使用运算放大器构建的平坦频率响应系统以校正驱动器响应,在通带中必然具有非常不平坦的相位响应。这种不平坦意味着瞬态声音的分量频率变得不均匀地延迟,从而导致微妙的瞬态失真,从而妨碍正确的声音分量识别,这意味着可以辨别的不同声音更少。
因此,这听起来很糟糕。仿佛所有的声音都来自一个恰好位于耳朵中间的模糊球。
上面答案中的 HRTF 问题只是其中的一部分 - 另一个是可实现的模拟域电路只能具有因果时间响应,并且要正确纠正驱动器,需要一个非因果滤波器。
这可以通过与驱动程序匹配的有限脉冲响应滤波器进行数字近似,但这需要一个小的时间延迟,这足以使电影非常不同步。
它仍然听起来像是来自你的脑海,除非 HRTF 也被重新添加进来。
所以,这毕竟不是那么简单。
要制作“透明”系统,您不仅需要人类听觉范围内的平坦通带,还需要线性相位 - 平坦的群延迟图 - 并且有一些证据表明这种线性相位需要持续到令人惊讶的高频率,这样方向提示就不会丢失。
这很容易通过实验验证:在 Audacity 或 snd 等声音文件编辑器中打开您熟悉的一些音乐的 .wav,然后从一个通道中删除一个 44100 Hz 样本,然后重新对齐另一个通道,以便第一个样本现在发生在第二个已编辑通道上,然后播放。
您会听到非常明显的差异,即使差异只是 1/44100 秒的时间延迟。
考虑一下:声音大约为 340 mm / ms,因此在 20 kHz 时,这是一个加减一个采样延迟或 50 微秒的时间误差。那是 17 毫米的声音传播,但您可以听到与缺少的 22.67 微秒的差异,即只有 7.7 毫米的声音传播。
人类听觉的绝对截止频率通常被认为在 20 kHz 左右,那么发生了什么?
答案是听力测试是使用测试音进行的,测试音主要一次只包含一个频率,在测试的每个部分持续相当长的时间。但是我们的内耳由一个物理结构组成,它对声音执行某种 FFT,同时将神经元暴露给它,因此不同位置的神经元与不同的频率相关联。
单个神经元只能如此快速地重新激发,因此在某些情况下,一些神经元被一个接一个地使用以跟上......但这只能在大约 4 kHz 左右......这正是我们的对音调的感知结束。然而,大脑中没有任何东西可以阻止神经元在任何时候感觉如此倾斜时放电,那么最重要的频率是多少?
关键是耳朵之间的微小相位差是可以感知的,但它不会改变我们识别声音的方式(通过它们的光谱结构),它会影响我们如何感知它们的方向。(HRTF 也发生了变化!)尽管它似乎应该从我们的听力范围“滚出”。
答案是 -3dB 甚至 -10dB 点仍然太低 - 你需要到大约 -80dB 点才能得到它。如果你想处理响亮的声音和安静的声音,那么你需要很好地降低到 -100 dB 以上。单音听力测试不太可能看到,这主要是因为这些频率只有在它们与其他谐波同相作为尖锐瞬态声音的一部分到达时才会“计数”——在这种情况下,它们的能量加在一起,达到足够的浓度触发神经反应,即使作为单独的频率分量,它们可能太小而无法计数。
另一个问题是,不管怎样,我们不断地受到许多超声波噪声源的轰炸,其中大部分可能来自我们自己内耳中受损的神经元,在我们生活中的某个时间点被过高的声级损坏。在如此响亮的“本地”噪音中很难辨别听力测试的孤立输出音调!
因此,这需要“透明”系统设计以使用更高的低通频率,以便在系统之前有空间让人类低通淡出(使用它自己的相位调制,您的大脑已经“校准”到)相位调制开始改变瞬变的形状,并及时改变它们,使大脑无法识别它们属于哪个声音。
使用耳机,简单地将它们构建为具有足够带宽的单个宽带驱动器要容易得多,并依靠“未校正”驱动器的非常高的自然频率响应来防止时间失真。这对耳机来说效果更好,因为驱动器的小质量很适合这种情况。
需要相位线性的原因深深植根于时域频域对偶性,这也是您无法构建可以“完美校正”任何真实物理系统的零延迟滤波器的原因。
之所以重要的是“相位线性”而不是“相位平坦度”,是因为相位曲线的整体斜率并不重要——通过对偶性,任何相位斜率都相当于一个恒定的时间延迟。
每个人的外耳都有不同的形状,因此在略微不同的频率上发生的传递函数也不同。你的大脑已经习惯了它所拥有的东西,它有自己独特的共鸣。如果你用错了,它实际上听起来会更糟,因为你的大脑习惯做的校正将不再对应耳机传递函数中的那些,而且你会遇到比没有消除共振更糟糕的事情——您将有两倍多的不平衡极点/零点使您的相位延迟变得混乱,并彻底破坏您的群延迟和组件到达时间关系。
听起来很不清楚,您将无法分辨出录音编码的空间图像。
如果你做一个盲目的A/B听力测试,每个人都会选择至少不会对群延迟造成太大影响的未校正耳机,这样他们的大脑就可以重新适应它们。
这就是为什么有源耳机不尝试均衡的原因。很难做到正确。
这也是为什么数字房间校正是它的利基:因为正确使用它需要频繁的测量,这很难/不可能进行现场测量,而且消费者通常不想知道。
主要是因为正在校正的房间中的声学共振,主要是低音响应的一部分,随着气压、温度和湿度的变化而保持轻微变化,从而轻微改变声速,从而改变共振远离它们是在进行测量时。