信息处理 - 如果人类只能听到高达 20 kHz 频率的声音，为什么音乐音频的采样频率为 44.1 kHz？ - 吾爱随笔录

如果人类只能听到高达 20 kHz 频率的声音，为什么音乐音频的采样频率为 44.1 kHz？

信息处理声音的采样奈奎斯特

2021-12-26 20:54:05

我在一些地方读到，音乐大多以 44.1 kHz 采样，而我们只能听到高达 20 kHz 的声音。为什么？

4个回答

真实信号的采样率需要大于信号带宽的两倍。音频实际上从 0 Hz 开始，因此以 44.1 kHz 录制的音频中存在的最高频率是 22.05 kHz（22.05 kHz 带宽）。
完美的砖墙滤波器在数学上是不可能的，所以我们不能完美地截断 20 kHz 以上的频率。额外的 2 kHz 用于滤波器的滚降；这是“摆动空间”，由于过滤器不完善，音频可能会出现混叠，但我们听不到。
44.1 kHz 的具体值与当时使用的 PAL 和 NTSC 视频帧速率兼容。

索尼选择了 44,100，因为它是前四个素数平方的乘积。这使得它可以被许多其他整数整除，这是数字采样中的一个有用属性。

44100 = 2^2 * 3^2 * 5^2 * 7^2

正如您所注意到的，44100 也刚好高于人类听觉极限的两倍。上面的部分为过滤器提供了一些余地，因此使它们更便宜（拒绝的芯片更少）。

正如Russell在评论中指出的那样，在选择采样率时，可被许多其他整数整除具有直接的好处。早期的数字音频录制在现有的模拟视频记录媒体上，根据地区的不同，该媒体支持NTSC或PAL视频规范。NTSC 和 PAL 具有不同的 Lines per Field 和 Fields per Second 速率，其LCM（连同每行样本数）为44100。

Nyquist 速率高于您想要无歧义（例如混叠）捕获的基带信号的带宽限制的两倍。

以低于两倍 20kHz 的速率进行采样，由于混叠，您将无法仅通过查看样本来区分非常高和非常低的频率之间的差异。

补充：请注意，任何有限长度的信号在频域都有无限支持，因此没有严格的带宽限制。这也是为什么需要对高于最高频谱两倍（在基带信号中）的任何非无限音频源进行采样以避免显着混叠（不仅仅是有限滤波器过渡滚降的原因）的另一个原因。

基本上，两倍带宽是信号采样的常见要求，因此 kHz 是最小值。然后，多一点对于处理不完善的滤波和量化很有用。详情如下。 $2\times 20 = 40$

理论上你需要的不是实践中需要的。这与引用（归因于许多）一致：

从理论上讲，理论与实践没有区别。在实践中是有的。

我不是音频专家，但我接受过高质量音频采样/压缩人员的培训。我的知识可能会生疏，请谨慎使用。

首先，标准抽样理论在一些假设下起作用：线性系统和时间不变性。然后，理论上已知连续的带限现象可能以大约两倍的带宽（或两倍于基带信号的最大频率）进行采样而没有损失。“奈奎斯特率”通常定义为：

可以在不引入错误的情况下对信号进行采样的最小速率

这就是“抽样定理”的分析部分。“可以”很重要。有一个合成部分：连续信号“可以用基本正弦类似地重建”。这不是唯一的技术，它没有考虑低通预滤波、非线性（如量化、饱和）和其他时变因素。

人类的听觉不是一个简单的话题。人们普遍认为，人类听到的频率从 20 赫兹到 20,000 赫兹不等。但赫兹如此精确的界限并不是所有人类的自然特征。随着年龄的增长，对高频的敏感性逐渐丧失。另一方面：

在理想的实验室条件下，人类可以听到低至 12 Hz 和高至 28 kHz 的声音，尽管成人的阈值在 15 kHz 时急剧增加

听力不是线性的：有试听和痛苦的阈值。它不是时不变的。在时间和频率上都有掩蔽效应。

如果 20 Hz 到 20,000 Hz 频段是一个常见的范围，并且理论上 40,000 Hz 就足够了，那么需要额外的一点来应对额外的失真。经验法则说，多 10% 是可以的（信号带宽），而44,100 Hz就可以了。它可以追溯到 1970 年代后期。为什么不使用 44,000 Hz？主要是因为 CD 的流行所设定的标准，其技术一如既往地基于权衡。此外，44,100 是前四个素数（）的平方的乘积，因此具有小因子，有利于计算（如 FFT）。 $2.2\times$ $2^2 \times 3^2 \times 5^2 \times 7^2$

因此，从到（和倍数），我们在安全性、量化、可用性、计算和标准方面取得了平衡。 $2\times 20$ $44.1$

存在其他选项：例如，DAT 格式以 48 kHz 采样发布，最初转换困难。96 kHz 在我应该使用什么采样率和位深度？这是一个有争议的主题，请参阅24 bit 48kHz verses 24 bit 96kHz。例如，您可以检查Audacity 采样率。

其它你可能感兴趣的问题

上一篇混合音频信号而不削波的算法下一篇为什么有这么多计算 PSD 的方法？