我在一些地方读到,音乐大多以 44.1 kHz 采样,而我们只能听到高达 20 kHz 的声音。为什么?
如果人类只能听到高达 20 kHz 频率的声音,为什么音乐音频的采样频率为 44.1 kHz?
- 真实信号的采样率需要大于信号带宽的两倍。音频实际上从 0 Hz 开始,因此以 44.1 kHz 录制的音频中存在的最高频率是 22.05 kHz(22.05 kHz 带宽)。
- 完美的砖墙滤波器在数学上是不可能的,所以我们不能完美地截断 20 kHz 以上的频率。额外的 2 kHz 用于滤波器的滚降;这是“摆动空间”,由于过滤器不完善,音频可能会出现混叠,但我们听不到。
- 44.1 kHz 的具体值与当时使用的 PAL 和 NTSC 视频帧速率兼容。
请注意,基本原理已在许多地方发布:维基百科:为什么是 44.1 kHz?
索尼选择了 44,100,因为它是前四个素数平方的乘积。这使得它可以被许多其他整数整除,这是数字采样中的一个有用属性。
44100 = 2^2 * 3^2 * 5^2 * 7^2
正如您所注意到的,44100 也刚好高于人类听觉极限的两倍。上面的部分为过滤器提供了一些余地,因此使它们更便宜(拒绝的芯片更少)。
正如Russell在评论中指出的那样,在选择采样率时,可被许多其他整数整除具有直接的好处。早期的数字音频录制在现有的模拟视频记录媒体上,根据地区的不同,该媒体支持NTSC或PAL视频规范。NTSC 和 PAL 具有不同的 Lines per Field 和 Fields per Second 速率,其LCM(连同每行样本数)为44100。
Nyquist 速率高于您想要无歧义(例如混叠)捕获的基带信号的带宽限制的两倍。
以低于两倍 20kHz 的速率进行采样,由于混叠,您将无法仅通过查看样本来区分非常高和非常低的频率之间的差异。
补充:请注意,任何有限长度的信号在频域都有无限支持,因此没有严格的带宽限制。这也是为什么需要对高于最高频谱两倍(在基带信号中)的任何非无限音频源进行采样以避免显着混叠(不仅仅是有限滤波器过渡滚降的原因)的另一个原因。
基本上,两倍带宽是信号采样的常见要求,因此 kHz 是最小值。然后,多一点对于处理不完善的滤波和量化很有用。详情如下。
理论上你需要的不是实践中需要的。这与引用(归因于许多)一致:
从理论上讲,理论与实践没有区别。在实践中是有的。
我不是音频专家,但我接受过高质量音频采样/压缩人员的培训。我的知识可能会生疏,请谨慎使用。
首先,标准抽样理论在一些假设下起作用:线性系统和时间不变性。然后,理论上已知连续的带限现象可能以大约两倍的带宽(或两倍于基带信号的最大频率)进行采样而没有损失。“奈奎斯特率”通常定义为:
可以在不引入错误的情况下对信号进行采样的最小速率
这就是“抽样定理”的分析部分。“可以”很重要。有一个合成部分:连续信号“可以用基本正弦类似地重建”。这不是唯一的技术,它没有考虑低通预滤波、非线性(如量化、饱和)和其他时变因素。
人类的听觉不是一个简单的话题。人们普遍认为,人类听到的频率从 20 赫兹到 20,000 赫兹不等。但赫兹如此精确的界限并不是所有人类的自然特征。随着年龄的增长,对高频的敏感性逐渐丧失。另一方面:
在理想的实验室条件下,人类可以听到低至 12 Hz 和高至 28 kHz 的声音,尽管成人的阈值在 15 kHz 时急剧增加
听力不是线性的:有试听和痛苦的阈值。它不是时不变的。在时间和频率上都有掩蔽效应。
如果 20 Hz 到 20,000 Hz 频段是一个常见的范围,并且理论上 40,000 Hz 就足够了,那么需要额外的一点来应对额外的失真。经验法则说,多 10% 是可以的(信号带宽),而44,100 Hz就可以了。它可以追溯到 1970 年代后期。为什么不使用 44,000 Hz?主要是因为 CD 的流行所设定的标准,其技术一如既往地基于权衡。此外,44,100 是前四个素数()的平方的乘积,因此具有小因子,有利于计算(如 FFT)。
因此,从到(和倍数),我们在安全性、量化、可用性、计算和标准方面取得了平衡。
存在其他选项:例如,DAT 格式以 48 kHz 采样发布,最初转换困难。96 kHz 在我应该使用什么采样率和位深度? 这是一个有争议的主题,请参阅24 bit 48kHz verses 24 bit 96kHz。例如,您可以检查Audacity 采样率。