信息处理 - 为什么我们选择 44.1 kHz 作为录音采样率？ - 吾爱随笔录

为什么我们选择 44.1 kHz 作为录音采样率？

信息处理声音的采样

2022-01-01 23:43:12

人们的耳朵能听到频率范围为 20 Hz 至 20 kHz 的声音。根据 Nyquist 定理，记录速率应至少为 40 kHz。是选择 44.1 kHz 的原因吗？

4个回答

诚然，像任何惯例一样，选择 44.1 kHz 是一种历史性的意外。还有其他一些历史原因。

当然，如果您想要带宽为 20 kHz 的高质量音频，采样率必须超过 40 kHz。

曾讨论过将其设为 48.0 kHz（这与 24 帧/秒的电影和北美电视表面上的 30 帧/秒非常一致），但考虑到 120 毫米的物理尺寸，有多少数据是有限的。 CD 可以保存，并且考虑到需要错误检测和纠正方案并且需要一些数据冗余，CD 可以存储的逻辑数据量（大约 700 MB）大约是物理数据量的一半。考虑到所有这些，以 48 kHz 的速率，我们被告知它不能保存所有贝多芬的 9th，但它可以以稍慢的速率将整个 9th 保存在一张光盘上。所以 48 kHz 出来了。

不过，为什么是 44.1 而不是 44.0 或 45.0 kHz 或一些不错的整数？

当时，在 1970 年代后期出现了一款名为Sony F1的产品，旨在将数字音频录制到现成的录像带（Betamax，而不是 VHS）上。那是 44.1 kHz（或更准确地说是 44.056 kHz）。因此，这样可以轻松地将录音从 F1 传输到 CD 或其他方向，而无需重新采样和插值。

我对它如何到达那里的理解是，NTSC 电视的水平扫描速率是 15.750 kHz，而 44.1 kHz 正好是它的 2.8 倍。我不完全确定，但我相信这意味着每条水平线可以有三个立体声样本对，对于通常有 15 个样本的每 5 行，有 14 个样本加上一些额外样本F1 中的奇偶校验或冗余。5 行 14 个样本与每条水平线 2.8 个样本相同，每秒 15,750 行，即每秒 44,100 个样本。

现在，自从推出了彩电，他们不得不将水平线速率略微降低到每秒 15734 线。这种调整导致索尼 F1 每秒采样 44,056 次。

以http://www1.cs.columbia.edu/~hgs/audio/44.1.html为例。由于抗混叠滤波器，您应该使用超过 40 kHz 的采样率。您应该在频率上有一些储备，以防止由于滤波器的响应斜率导致信号失真。44.1 kHz 的实际值是索尼公司在 1979 年讨论录音标准时提出的。当时他们广泛使用这个速率。

所以一般是历史原因。

在向数字格式的过渡中，音频以伪视频波形存储，可以被视为黑色或白色（代表二进制格式）。

对于 60 Hz 视频，电视标准使用的场频和结构如下：每场 245 行（不包括前 35 个空白行）。每行三个样本，使 60 x 245 x 3 = 44100 = 44.1 KHz。

由于设备兼容性问题，该约定后来用于 CD 格式（用于制作用于 CD 复制的 CD 母版的第一台设备是基于视频的）。

资料来源：声音再现的艺术，p。228

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Nyquist-Shannon 采样定理说采样频率必须大于希望重现的最大频率的两倍。由于人类的听觉范围大约为 20 Hz 至 20,000 Hz，因此采样率必须大于 40 kHz。

此外，信号必须在采样前进行低通滤波以避免混叠。虽然理想的低通滤波器可以完美地通过低于 20 kHz 的频率（不衰减它们）并完美地截止高于 20 kHz 的频率，但这样的理想滤波器在理论上是不可能的（它是非因果的），因此在实践中需要一个过渡带，其中频率被部分衰减。这个过渡带越宽，制作抗混叠滤波器就越容易和更经济。44.1 kHz 采样频率允许 2.05 kHz 过渡带。

此外，44,100 是前四个素数 (2^2 * 3^2 * 5^2 * 7^2) 的平方的乘积，因此具有许多有用的小因数。

其它你可能感兴趣的问题

上一篇DSP 或信号/图像/数据处理笑话下一篇改进音高检测的技巧