人们的耳朵能听到频率范围为 20 Hz 至 20 kHz 的声音。根据 Nyquist 定理,记录速率应至少为 40 kHz。是选择 44.1 kHz 的原因吗?
为什么我们选择 44.1 kHz 作为录音采样率?
诚然,像任何惯例一样,选择 44.1 kHz 是一种历史性的意外。还有其他一些历史原因。
当然,如果您想要带宽为 20 kHz 的高质量音频,采样率必须超过 40 kHz。
曾讨论过将其设为 48.0 kHz(这与 24 帧/秒的电影和北美电视表面上的 30 帧/秒非常一致),但考虑到 120 毫米的物理尺寸,有多少数据是有限的。 CD 可以保存,并且考虑到需要错误检测和纠正方案并且需要一些数据冗余,CD 可以存储的逻辑数据量(大约 700 MB)大约是物理数据量的一半。考虑到所有这些,以 48 kHz 的速率,我们被告知它不能保存所有贝多芬的 9th,但它可以以稍慢的速率将整个 9th 保存在一张光盘上。所以 48 kHz 出来了。
不过,为什么是 44.1 而不是 44.0 或 45.0 kHz 或一些不错的整数?
当时,在 1970 年代后期出现了一款名为Sony F1的产品,旨在将数字音频录制到现成的录像带(Betamax,而不是 VHS)上。那是 44.1 kHz(或更准确地说是 44.056 kHz)。因此,这样可以轻松地将录音从 F1 传输到 CD 或其他方向,而无需重新采样和插值。
我对它如何到达那里的理解是,NTSC 电视的水平扫描速率是 15.750 kHz,而 44.1 kHz 正好是它的 2.8 倍。我不完全确定,但我相信这意味着每条水平线可以有三个立体声样本对,对于通常有 15 个样本的每 5 行,有 14 个样本加上一些额外样本F1 中的奇偶校验或冗余。5 行 14 个样本与每条水平线 2.8 个样本相同,每秒 15,750 行,即每秒 44,100 个样本。
现在,自从推出了彩电,他们不得不将水平线速率略微降低到每秒 15734 线。这种调整导致索尼 F1 每秒采样 44,056 次。
以http://www1.cs.columbia.edu/~hgs/audio/44.1.html为例。由于抗混叠滤波器,您应该使用超过 40 kHz 的采样率。您应该在频率上有一些储备,以防止由于滤波器的响应斜率导致信号失真。44.1 kHz 的实际值是索尼公司在 1979 年讨论录音标准时提出的。当时他们广泛使用这个速率。
所以一般是历史原因。
在向数字格式的过渡中,音频以伪视频波形存储,可以被视为黑色或白色(代表二进制格式)。
对于 60 Hz 视频,电视标准使用的场频和结构如下:每场 245 行(不包括前 35 个空白行)。每行三个样本,使 60 x 245 x 3 = 44100 = 44.1 KHz。
由于设备兼容性问题,该约定后来用于 CD 格式(用于制作用于 CD 复制的 CD 母版的第一台设备是基于视频的)。
资料来源:声音再现的艺术,p。228
https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Nyquist-Shannon 采样定理说采样频率必须大于希望重现的最大频率的两倍。由于人类的听觉范围大约为 20 Hz 至 20,000 Hz,因此采样率必须大于 40 kHz。
此外,信号必须在采样前进行低通滤波以避免混叠。虽然理想的低通滤波器可以完美地通过低于 20 kHz 的频率(不衰减它们)并完美地截止高于 20 kHz 的频率,但这样的理想滤波器在理论上是不可能的(它是非因果的),因此在实践中需要一个过渡带,其中频率被部分衰减。这个过渡带越宽,制作抗混叠滤波器就越容易和更经济。44.1 kHz 采样频率允许 2.05 kHz 过渡带。
此外,44,100 是前四个素数 (2^2 * 3^2 * 5^2 * 7^2) 的平方的乘积,因此具有许多有用的小因数。