信息处理 - 为什么电话音频的采样频率为 8 kHz？ - 吾爱随笔录

为什么电话音频的采样频率为 8 kHz？

信息处理声音的采样

2022-01-12 05:19:50

我们什么时候决定在 $8$ 千赫？一直都是这样吗？我们为什么这样做？是因为无法快速传输更高的比特率吗？这些原因还算数吗？如果没有，为什么还没有新标准？是不是真的 $8$ kHz 是传输可理解语音的最低采样率吗？

我正在尝试为此寻找来源，但似乎没有太多关于它的信息。

4个回答

如果有人愿意挖掘，我想他们会发现，在贝尔电话开始多路复用语音线路之前，他们对人类语音的频率内容进行了大量研究。他们最初使用测试组来开发贝尔音频单元和语音的功率分布以及人耳对各种频率的敏感度。他们开发了一种带通特性，在 2.1 KHz 附近达到峰值，并在 300 以下和 3000 HZ 以上下降。正确完成后，它会发出良好的人类声音。所有这些都是模拟的。
AM 收音机将其扩展到 5 KHz，以包括我们年轻且耳朵良好时大多数人都能接受的音乐。电视反激式变压器被设计为以 ~17.5 KHz 运行，因为图像再现有一个神奇的数字大多数人听不到呜呜声。单边带无线电在 1960 年代商业化，需要非常尖锐的截止频率。我使用带有 2.1 和 3.1 KHz 滤波器的收音机。2.1 有一些唐老鸭的特点。3.1听起来不错，又是年轻的耳朵。使用 FM 将音频带通增加到 20 KHZ 或更高，因为更高的载波频率可以处理更高的带宽，从而更好地再现音乐。堆叠一些木琴或铃铛或其他高音乐器，它们可以获得足够的谐波能量进入更高的频率。OTOH，就像州一样，大多数人听不到。

最重要的是，任何声称他们需要 20 KHz 带宽用于语音的人都没有注意。3 KHz 就可以了，5 KHz 会给你一些余量。如果它听起来不正确，那么除了带宽之外的其他问题就是问题所在。

当数字信号被开发出来时，知道的人发现无论波形看起来多么奇怪，它都可以分解成一组正弦波。这些波的谐波混合产生了典型的声音或音乐的尖峰模式。最后，奈奎斯特研究了在给定频率下再现正弦波所需的数字采样率。事实证明，产生一个正弦波需要 2 个样本，因此将再现的最高频率是采样率的一半。您想要 5 KHz 的音频，然后以 10 KHz 采样。适合发声。您想要比大多数人听到的保真度更高的音乐，然后以 40 KHz 左右的频率采样以获得 20+ KHz。

另一个花絮是采样与比特率。如果您以给定的频率进行采样，然后将其乘以字长，您将获得产生所需信号所需的最小比特率。降低比特率，样本字的大小将被削减，以满足给定采样率下的新比特率。这就是所有“无损”编码。这一切都来自内存并试图找到当前数据。如果有人寻找引用，它就在那里。我不会打扰，因为我太老了，不在乎。当我对做一些音频捕捉感兴趣时，我只是厌倦了处理许多明显的神话问题。

它被认为在质量和带宽之间提供了良好的折衷。实际上，单个语音信号占用 8 kHz，而不是 8 kbps 的带宽。每个样本被量化为 8 位，产生普遍使用的 64 kbps 的速率。

进一步阅读：

澄清一大堆误解。

首先，从来没有 56k“波特”调制解调器。波特是关于状态变化的，最高达到 1200 波特。除此之外的任何东西都需要更复杂的编码。

其次，人类的听觉不仅能感知基音，而且还能感知远高于和超出基音的许多次谐波内容。去除谐波内容后，音频听起来不那么自然和悦耳。更高（高于 8Khz）分辨率的音频更易懂且更悦耳。

第三，奈奎斯特在固定时域内工作。如果您在峰值或谷值的确切时刻开始采样，那么您只需将采样率提高到频率的 2 倍。但是，在现实世界中，您的采样点可能会出现在任意时间上与峰值或谷值的随机偏移处，因此需要更高的采样率。例如，如果您对正弦波进行采样，并且您的采样时刻恰好与波形起点偏移 90 度，那么您的数据将建议一条直线而不是波形。对于基音来说，这是至关重要的。对于谐波含量，它更适合拥有，在可听范围的顶端附近具有递减的收益。应用于音频处理的奈奎斯特定理是目前解释最差的定理之一。

另一个原因是，在数字信号传输之前，电话音频曾经被模拟调制到窄带通道中，以便可以通过单个模拟链路（射频和微波塔中继等）发送多个电话。首先进行低通滤波以缩小每个通道所需的带宽，以便将最大数量的通道打包到一个模拟管道中（但即使这样，在糟糕的一天，人们也可以听到任何相邻的电话作为背景噪音）。由于人们习惯了频率不高于 3.5 kHz 左右的长途电话，因此即使是本地电话，这种带宽在商业上也可以接受。

然而，早期的太空探索通信使用了更窄的带宽，因此 3.5 kHz 可能不是可理解语音的最小值。

其它你可能感兴趣的问题

上一篇如何使用 OpenGL 检测二值图像中的角点？下一篇卡尔曼滤波器——理解噪声协方差矩阵