如何将 22 kHz 语音录音上采样到 44 kHz,也许使用 AI?

信息处理 声音的 声音 演讲 语音 上采样
2022-01-02 17:49:57

我有一个 22 kHz 的单声道录音,主要是语音,阅读。我想以某种方式上采样到 44 kHz,以提高可听质量。我已经读到有 AI 方法可以对图片甚至视频进行更高分辨率的上采样。也许音频也有一些类似的方法。

录音来自无线电广播,因此录音质量非常好,以 128 kbps、44 kHz、立体声流式传输,但录音的人将其从最初的 44 kHz 广播下采样到 22 kHz、单声道。因此,由于缺少高频,音质远非最佳,听起来像是一部旧电话。

声音样本https://drive.google.com/file/d/1AqdQomHjpKqYM4Wq8SdHGOPDR8Irzjj3/view?usp=sharing

4个回答

你想做的就是成像领域的“超分辨率”。
这是一个病态的问题。
因此,为了解决它,您需要一些关于您的音频数据的先验/模型。

例如,您可以查看Speech Super Resolution Using Parallel WaveNet中的模型。

虽然我不了解使用 AI 进行上采样的工具,但我挑战这样的假设,即您的样本的主要问题是由于从 44kHz 到 22kHz 的重新采样而丢失了高频,因此“仅”上采样不太可能解决您的根本问题。

不过,AI 上采样本身的可能性是明智的:虽然标准(数学)上采样可以回答“在给定 22kHz 信号的情况下,哪个 44kHz 信号听起来最像这个?”,但基于 AI 的上采样旨在回答完全不同的问题“当您以 22kHz(重新)采样时,哪个 44kHz 真实世界的信号最有可能听起来像这样”。如果下采样实际上是问题的根源,那么只要使用正确类型的信号对 AI 进行训练,AI 上采样就可以很好地解决它。例如,如果您有一个经过上采样音乐训练的 AI,该 AI 可能会“假设”扬声器实际上一直在唱歌,并添加一些不属于您的信号的音调——因此请注意使用哪些 AI 方法。

另一方面,我发现两个比采样到 22kHz 更可能导致“旧电话线”效应的原因。旧电话线比 22kHz/16 位采样差得多如今,16kHz 采样率已经被认为是“高清电话”。如果声音本身类似于旧电话线,则它的处理方式比过滤到 10kHz 的带宽(重新采样到 22kHz 所需的带宽)要糟糕得多。一条实际的电话线将频率限制在 0.3 到 3.4 kHz,并且与 8kHz 采样率大致匹配。

我想根本问题是其中之一:

  • 22kHz 文件已以有损方式编码(如 64kbit/s 甚至更低的 MP3)。特别是对于旧的 MP3 编码器,在 enoding 之前放置一个低通滤波器以限制可能需要编码的频率数量,从而减少数据量是很常见的。如果有损编码是问题的根源,你仍然可以成功地使用 AI 来重建更好的声音信号,但你需要一个经过低比特率 MP3 编码造成的损失训练的 AI,而不是经过损失训练的 AI由重采样到 22kHz 引起。

  • 您拥有的文件是单声道的。它不会传达有关扬声器所在房间的任何信息。听起来/所有扬声器都直接在您面前。如果其中没有太多“房间声音”,您可以通过使用立体声混响过程来“解决”问题,该过程将样本放入人造房间并为左右耳提供不同的信号,这只是因为来自左侧或右侧墙壁的人工反射声音不同。此外,如果有多个扬声器,您可能需要将它们分开(将它们放在虚拟房间的不同位置)。最简单的方法是将样本平移到不同扬声器的不同立体声位置。如果多个发言者同时讲话,将他们分开是一项艰巨的任务。即使在平移信号之后,

正如一些评论中所指出的,您的问题涉及几个问题,您应该考虑寻求最佳解决方案:

因此,除了上一篇文章中提出的 Speech Super Resolution 方法之外,您还可以尝试其他一些方法,例如:

干杯。

添加高频噪声。

虽然其他答案提供了非常有效的观点,但添加噪音是一个非常简单的“解决方案”(故意放在引号中),以使声音看起来更“精彩”。

显然,只添加与信号中已经存在的较高频率信号成比例的高频噪声更有意义。

现在,噪声不再提供任何数据而且它不会使信号更容易理解。它只会增加听众对高频内容的印象。

似乎最初的 apt-X 编解码器(自 2010 年以来的 aptX)具有此副作用,因此经常被认为“比 SBC 更好地再现高频信号”。

请注意,我知道这个答案更多地与心理声学有关,而不是与信号处理有关。我只是想为这个问题提供一个不同的角度。我非常清楚“添加噪音”通常不是解决方案,而是一个问题。


这与 CNG(舒适噪音生成)无关,CNG 旨在“消除静音”。