为什么有源耳机不能均衡到平坦的频率响应?

电器工程 声音的 频率响应 耳机
2022-01-22 00:46:32

有些耳机是“有源”的,耳罩中内置有放大器,需要电源(通常是 AAA 电池)。

然后我看到许多发烧友讨论频率响应作为衡量耳机好坏的指标,他们断然拒绝大多数“有源”耳机,例如 Dre Beats Studio。

然而,使用某些运算放大器,对输入信号进行均衡、预放大似乎相当容易,这样它就可以完全校正驱动器的频率响应,从而在需要时产生极其平坦的频率响应(或不需要,例如低音提升或削减)。

这样做有什么特别困难的吗?

频率响应图 http://graphs.headphone.com/graphCompare.php?graphType=0&graphID[]=1383&graphID[]=193&graphID[]=1263&graphID[]=853&scale=20

例如,对于 Dre Beats Studio(蓝线),也许 EQ 电路可以提供 +3db@750Hz、-5dB@1100Hz、+6.5dB@1300Hz、+5dB@1550Hz、-4.5dB@8.5kHz 和 +14dB @15kHz,调整斜率以将频率响应从 500Hz 到 20kHz 最佳对齐到 0db。

3个回答

当您将某些东西放在耳朵上以再现标准立体声录音时,您不需要平坦的频率响应,因为当声源靠在您的耳朵时,通常对更远的声源起作用的与头部相关的传递函数看起来非常不同.

让我引用一本书中的几段话

在电声传输链中的所有组件中,耳机是最具争议的。由于众所周知的耳机头内定位,真正意义上的高保真,不仅涉及音色,还涉及空间定位,更多地与扬声器立体声相关联。然而,带有假头的双耳录音最有希望实现逼真的高保真度,注定要用于耳机再现。即使在他们的鼎盛时期,他们也没有在日常的录制和广播中找到位置。当时的原因是不可靠的正面定位,与扬声器再现不兼容,以及它们不美观的倾向。由于数字信号处理 (DSP) 可以使用与双耳头相关的传递函数进行常规过滤,因此不再需要 HRTF、假头。

耳机最常见的应用仍然是为它们提供原本用于扬声器的立体声信号。这就提出了理想频率响应的问题。对于传输链中的其他设备(图 14.1),例如麦克风、放大器和扬声器,平坦响应通常是设计目标,在特殊情况下可以轻松定义与该响应的偏离。扬声器需要在通常 1 m 的距离处产生平坦的 SPL 响应。此时的自由场 SPL 再现了例如正在录制的音乐会的声场中麦克风位置处的 SPL。在 LS 前听录音时,听者的头部会通过衍射线性扭曲 SPL。他的耳朵信号不再表现出平坦的反应。然而,这不必担心扬声器制造商,因为如果听众在现场表演中也会发生这种情况。另一方面,耳机制造商直接关注产生这些耳朵信号。标准中规定的要求导致了自由场校准耳机,其频率响应复制了前面扬声器的耳朵信号,以及扩散场校准,其目的是在耳朵中复制 SPL聆听来自各个方向的声音。假设许多扬声器具有不相干的源,每个源都具有平坦的电压响应。耳机制造商直接关注产生这些耳朵信号。标准中规定的要求导致了自由场校准耳机,其频率响应复制了前面扬声器的耳朵信号,以及扩散场校准,其目的是在耳朵中复制 SPL聆听来自各个方向的声音。假设许多扬声器具有不相干的源,每个源都具有平坦的电压响应。耳机制造商直接关注产生这些耳朵信号。标准中规定的要求导致了自由场校准耳机,其频率响应复制了前面扬声器的耳朵信号,以及扩散场校准,其目的是在耳朵中复制 SPL聆听来自各个方向的声音。假设许多扬声器具有不相干的源,每个源都具有平坦的电压响应。其目的是在听者的耳朵中复制 SPL,以获得来自各个方向的声音冲击。假设许多扬声器具有不相干的源,每个源都具有平坦的电压响应。其目的是在听者的耳朵中复制 SPL,以获得来自各个方向的声音冲击。假设许多扬声器具有不相干的源,每个源都具有平坦的电压响应。

在此处输入图像描述

(a) 自由场响应:为了更好的参考,各种国际标准和其他标准对高保真耳机提出了以下要求:恒压单声道信号输入的频率响应和感知响度近似为在消声条件下,听众面前的平坦响应扬声器的效果。耳机在给定频率(选择 1000 Hz 作为 0 dB 参考)下的自由场 (FF) 传递函数等于耳机信号被放大以提供相等响度的量(以 dB 为单位)。需要对最少数量的受试者(通常为 8 个)进行平均。[...] 图 14.76 显示了一个典型的容差场。

在此处输入图像描述

(b) 漫射场响应:在 1980 年代,开始有运动以另一种自由场标准要求取代自由场标准要求,其中漫射场 (DF) 是参考。事实证明,它已成为标准,但没有取代旧标准。两人现在并肩而立。对 FF 参考的不满主要来自 2 kHz 峰值的幅度。它负责图像的着色,因为即使对于单声道信号也无法实现正面定位。Theile 的关联模型描述了听觉机制感知颜色的方式(图 14.62)。图 14.77 显示了扩散场和自由场的耳朵响应比较。[...] 由于主观听力测试是最重要的,到目前为止,FF 耳机更多的是例外而不是规则。不同频率响应的口味可满足个人喜好,每个制造商都有自己的耳机理念,频率响应范围从平坦到自由场甚至更远。

在此处输入图像描述

这个 HRTF 差异问题也是为什么有角度的驱动器(在耳机中)对于像 Sennheiser 这样的公司销售的足够多的人来说听起来更好。不过,有角度的驱动器并不能完全使耳机听起来像扬声器。

在工厂或实验室中,测量频率响应时会使用人工耳。下面的一个是实验室级的;工厂级的要简单一些。

在此处输入图像描述

我还发现了 HeadRoom 网站使用的方法

我们如何测试频率响应:为了执行此测试,我们以相同的电压和不断增加的频率使用一系列 200 音调驱动耳机。然后,我们通过高度专业化(而且价格昂贵!)Head Acoustics 麦克风的耳朵测量每个频率的输出。之后,我们应用音频校正曲线,去除与头部相关的传递函数,并准确地生成用于显示的数据。

使用的麦克风大概就是这个似乎他们实际上通过软件反转了假人头/耳朵的传递函数,因为他们在那之前说“理论上,这个图应该是一条 0dB 的平线。”......但我不完全确定他们做了什么...因为在那之后,他们说“在 40Hz 和 500Hz 之间,一个“自然发声”的耳机的低音应该略高(大约 3 或 4 dB)。” 和“耳机也需要在高音时滚降,以补偿驱动器离耳朵如此之近;从 1kHz 到 20kHz 时下降约 8-10dB 的平缓平坦线大约是正确的。” 对于他们之前关于反转/删除 HRTF 的声明,这对我来说并不完全编译。

查看人们从制造商 (Sennheiser) 获得的用于 HeadRoom 示例中使用的耳机型号 (HD800)的一些证书,似乎 HeadRoom 显示的数据没有任何假设的耳机本身的校正模型(这可以解释为什么他们给出他们的后来的解释建议,所以他们最初的“平坦”建议是误导性的),而 Sennheiser 使用 DF(漫射场)校正,因此他们的图表看起来几乎是平坦的。

在此处输入图像描述

在此处输入图像描述

不过,这只是一个猜测,测量设备(和/或耳机样本之间)的差异可以很好地解释这些差异,因为它们并没有那么大。


无论如何,这是一个活跃且持续的研究领域(正如您可能从上面引用的关于 DF 的最后几句话中猜到的)。一些香港研究人员做了很多这样的事情。我没有(免费)访问他们的 AES 论文的权限,但可以在2013 年2014年的innerfidelity 博客以及香港主要作者的博客Sean Olive的链接中阅读一些相当广泛的摘要;作为捷径,这里有一些来自他们最近(2015 年 11 月)演示文稿的免费幻灯片。这是相当多的材料......我只是简单地看了一下,但主题似乎是DF不够好。

以下是他们早期演示中的几张有趣的幻灯片。首先,HD800 的完整频率响应(未截断到 12KHz)以及更清晰公开的设备:

在此处输入图像描述

也许 OP 最感兴趣的是,Beats 的低音并不那么吸引人,与价格为四到六倍的耳机相比,这是理所当然的。

在此处输入图像描述

简单的答案是,使用运算放大器构建的平坦频率响应系统以校正驱动器响应,在通带中必然具有非常不平坦的相位响应。这种不平坦意味着瞬态声音的分量频率变得不均匀地延迟,从而导致微妙的瞬态失真,从而妨碍正确的声音分量识别,这意味着可以辨别的不同声音更少。

因此,这听起来很糟糕。仿佛所有的声音都来自一个恰好位于耳朵中间的模糊球。

上面答案中的 HRTF 问题只是其中的一部分 - 另一个是可实现的模拟域电路只能具有因果时间响应,并且要正确纠正驱动器,需要一个非因果滤波器。

这可以通过与驱动程序匹配的有限脉冲响应滤波器进行数字近似,但这需要一个小的时间延迟,这足以使电影非常不同步。

它仍然听起来像是来自你的脑海,除非 HRTF 也被重新添加进来。

所以,这毕竟不是那么简单。

要制作“透明”系统,您不仅需要人类听觉范围内的平坦通带,还需要线性相位 - 平坦的群延迟图 - 并且有一些证据表明这种线性相位需要持续到令人惊讶的高频率,这样方向提示就不会丢失。

这很容易通过实验验证:在 Audacity 或 snd 等声音文件编辑器中打开您熟悉的一些音乐的 .wav,然后从一个通道中删除一个 44100 Hz 样本,然后重新对齐另一个通道,以便第一个样本现在发生在第二个已编辑通道上,然后播放。

您会听到非常明显的差异,即使差异只是 1/44100 秒的时间延迟。

考虑一下:声音大约为 340 mm / ms,因此在 20 kHz 时,这是一个加减一个采样延迟或 50 微秒的时间误差。那是 17 毫米的声音传播,但您可以听到与缺少的 22.67 微秒的差异,即只有 7.7 毫米的声音传播。

人类听觉的绝对截止频率通常被认为在 20 kHz 左右,那么发生了什么?

答案是听力测试是使用测试音进行的,测试音主要一次只包含一个频率,在测试的每个部分持续相当长的时间。但是我们的内耳由一个物理结构组成,它对声音执行某种 FFT,同时将神经元暴露给它,因此不同位置的神经元与不同的频率相关联。

单个神经元只能如此快速地重新激发,因此在某些情况下,一些神经元被一个接一个地使用以跟上......但这只能在大约 4 kHz 左右......这正是我们的对音调的感知结束。然而,大脑中没有任何东西可以阻止神经元在任何时候感觉如此倾斜时放电,那么最重要的频率是多少?

关键是耳朵之间的微小相位差是可以感知的,但它不会改变我们识别声音的方式(通过它们的光谱结构),它会影响我们如何感知它们的方向。(HRTF 也发生了变化!)尽管它似乎应该从我们的听力范围“滚出”。

答案是 -3dB 甚至 -10dB 点仍然太低 - 你需要到大约 -80dB 点才能得到它。如果你想处理响亮的声音和安静的声音,那么你需要很好地降低到 -100 dB 以上。单音听力测试不太可能看到,这主要是因为这些频率只有在它们与其他谐波同相作为尖锐瞬态声音的一部分到达时才会“计数”——在这种情况下,它们的能量加在一起,达到足够的浓度触发神经反应,即使作为单独的频率分量,它们可能太小而无法计数。

另一个问题是,不管怎样,我们不断地受到许多超声波噪声源的轰炸,其中大部分可能来自我们自己内耳中受损的神经元,在我们生活中的某个时间点被过高的声级损坏。在如此响亮的“本地”噪音中很难辨别听力测试的孤立输出音调!

因此,这需要“透明”系统设计以使用更高的低通频率,以便在系统之前有空间让人类低通淡出(使用它自己的相位调制,您的大脑已经“校准”到)相位调制开始改变瞬变的形状,并及时改变它们,使大脑无法识别它们属于哪个声音。

使用耳机,简单地将它们构建为具有足够带宽的单个宽带驱动器要容易得多,并依靠“未校正”驱动器的非常高的自然频率响应来防止时间失真。这对耳机来说效果更好,因为驱动器的小质量很适合这种情况。

需要相位线性的原因深深植根于时域频域对偶性,这也是您无法构建可以“完美校正”任何真实物理系统的零延迟滤波器的原因。

之所以重要的是“相位线性”而不是“相位平坦度”,是因为相位曲线的整体斜率并不重要——通过对偶性,任何相位斜率都相当于一个恒定的时间延迟。

每个人的外耳都有不同的形状,因此在略微不同的频率上发生的传递函数也不同。你的大脑已经习惯了它所拥有的东西,它有自己独特的共鸣。如果你用错了,它实际上听起来会更糟,因为你的大脑习惯做的校正将不再对应耳机传递函数中的那些,而且你会遇到比没有消除共振更糟糕的事情——您将有两倍多的不平衡极点/零点使您的相位延迟变得混乱,并彻底破坏您的群延迟和组件到达时间关系。

听起来很不清楚,您将无法分辨出录音编码的空间图像。

如果你做一个盲目的A/B听力测试,每个人都会选择至少不会对群延迟造成太大影响的未校正耳机,这样他们的大脑就可以重新适应它们。

这就是为什么有源耳机不尝试均衡的原因。很难做到正确。

这也是为什么数字房间校正是它的利基:因为正确使用它需要频繁的测量,这很难/不可能进行现场测量,而且消费者通常不想知道。

主要是因为正在校正的房间中的声学共振,主要是低音响应的一部分,随着气压、温度和湿度的变化而保持轻微变化,从而轻微改变声速,从而改变共振远离它们是在进行测量时。

一篇有趣的文章和讨论。我们倾向于认为奈奎斯特定理是适用于任何地方的规则,然后我们发现它并非如此。您使用正弦波将人类听觉的极限测量到 20kHz,然后在 44.1 或 48kHz 采样,确信您已经捕捉到了耳朵可以听到的所有内容。然而,将一个通道移动一个样本会导致显着变化,尽管差异在时间上超过 20kHz。

在运动图像中,我们认为眼睛会整合帧速率超过每秒 20 帧的图像。因此,影片以 24fps 的速度拍摄,并以 2 倍快门播放以减少闪烁 (48fps);电视的帧频为 50 或 60 Hz,具体取决于地区。我们中的一些人可以看到 50 Hz 帧速率闪烁,特别是如果我们已经长大了 60 Hz。但这就是有趣的地方。在过去几年的好莱坞专业协会技术撤退和 SMPTE 会议上,显示当原始帧从 60 Hz 扩展到 120 Hz 时,普通观众会看到质量显着提高。更令人惊讶的是,当将帧速率从 120 增加到 240 Hz 时,相同的观众看到了类似的改进。奈奎斯特会告诉我们,如果我们看不到 24 的帧速率,我们只需要将帧率加倍,就可以保证捕捉到人眼所能分辨的一切;然而在这里,我们的帧速率是 10 倍,并且仍然观察到明显的差异。

显然这里还有更多事情要做。在运动成像的情况下,图像中的运动会影响所需的帧速率。在音频方面,我希望音景的复杂性和密度决定了所需的音频分辨率。所有这些声音更多地依赖于它们的相位相干性,而不是频率响应来提供成像所需的清晰度。