信息处理 - 如何判断高分辨率 flac 文件是否已从 CD 质量文件中上采样？ - 吾爱随笔录

如何判断高分辨率 flac 文件是否已从 CD 质量文件中上采样？

信息处理声音的 mp3

2022-01-10 09:09:32

因为我可能会为其他设备以有损格式编码我的音乐或对其进行编辑，所以我更喜欢保留我的音乐的高分辨率副本。但是，我知道可以使用 ffmpeg 对文件进行上采样，并且它看起来与使用 ffprobe 的真实高分辨率文件相同。无论如何，我是否可以将“假”高分辨率文件（从 CD 质量或 mp3/aac 转换而来）与“真实”高分辨率文件（制作人导出的高分辨率文件）区分开来？

4个回答

让我们先了解一些基础知识。

音频格式基本上由三个不同的东西定义：采样率、位深度和压缩类型。压缩类型可以是无损（WAV、PCM、FLAC、ALAC）或“有损”（AAC、MP3、OGG、MQA 等）。有损压缩通过对量化噪声进行整形来工作，因此它被剩余的内容所掩盖并且听不见。有损格式的特征在于它们的比特率：比特率越高，进行的量化就越少。

典型的生命周期如下：录音、混音和发生在 96kHz 浮点。完成后，通常会制作两个母版：一个 96kHz/24 位的工作室母版和一个 44.1kHz/16 位的 CD 母版。

标签会将这两者之一发送到分销渠道，例如 Spotify。哪一个取决于合同。然后，Spotify 将为他们的流媒体平台创建他们需要的格式，其中几乎总是包括有损压缩。例如，Spotify 以 320 kb/s 的速度使用 OGG。Apple Music 以 256 kb/s 的速度使用 AAC。哪种格式到达客户取决于客户与分销商之间的合同。

无论如何我可以区分“假”高分辨率文件（从 CD 质量或 mp3/aac 转换）与“真实”高分辨率文件

以下是光谱分析中需要注意的一些事项

每种格式都有自己的衰减：CD 在 20 kHz 时像石头一样下降，而 MP3 在 16 kHz 时急剧下降。如果您的 96 kHz 文件具有这些急剧下降，则它可能已被上采样。
检查 20 kHz 以上的内容。如果那里有随机的“类似噪音”的特征，它可能是真的。如果它的内容非常少和/或内容看起来像 20 kHz 以下内容的低通滤波镜像，则它已被上采样。
您可以查看高频的相关性。对于真正的录音，这通常是不相关的。如果存在显着相关性，则可能是“联合立体声编码”的潜在迹象，可能暗示有损压缩。
看看录制日期：如果它是在 1990 年之前制作的，那么几乎可以保证是上采样的。从来没有数字工作室母带，他们能做的最好的就是对磁带母带进行采样。

一些格式，如MQA，包括身份验证，即它们在内容上加了一个“印章”，可以检测“印章”是否被篡改。也可以在内容上添加水印。

更新

您也可以检测位填充：任何“体面”的 CD 质量文件都经过适当的噪声整形和抖动处理。这种迹象可能会在上采样过程中被检测到。我从来没有尝试过，所以我不知道它有多可行，但尝试一下肯定会很有趣。

@Hilmar 的回答已经解决了这个问题。我要做的唯一补充是对上采样光谱的外观进行可视化。

这是一个以 96kHz 录制的巴松管。录音相当脏，所以你可以看到相当多的高于 22kHz（~44.1kHz 奈奎斯特）的频率内容。

巴松管 96kHz

然后将 96 kHz 文件下采样为 44.1 kHz wav 文件。下采样将涉及对原始音频数据进行低通滤波。当 44.1 kHz 版本被上采样回 96kHz 时，我们可以看到频率内容已被丢弃。

巴松管输出到 44.1 kHz，然后上采样回 96 kHz

从麦克风到扬声器的信号路径保持 96kHz 的文件具有高达 48kHz 的信号分量的潜力。大多数物理声源、房间和麦克风都会向这些频率滚动，但缓慢而温和。

如果 96kHz 文件的频谱在 22 或 24kHz 处有砖墙滤波的迹象，这可能表明信号链中的某处使用了 44.1 或 48kHz 采样。这可能意味着音乐家使用的合成器具有 48kHz D/A 转换器。

最后，如果你听不到区别，那有关系吗？Afaik，没有人能够可靠地听到 44.1/16 位系统在公平条件下的退化（以一种可以让你在科学期刊上发表结果的方式。关于各种东西的传闻在高保真人中盛行）。

您可以尝试使用频谱图进行取证。我不认为有一个通用的解决方案，或者任何方式可以确定哪些格式可以被检测为已被上采样。请参阅以下精美照片：https ://sound.stackexchange.com/questions/37730/which-spectrogram-shows-higher-quality-of-the-song

MP3 使用称为霍夫曼编码的无损压缩方案工作，当存在冗余数据时，该方案可以实现非常高的压缩比。编码器可能会使用 MDCT-IV（我认为）对输入进行时频分析，将结果与心理声学模型进行比较，并以最小化可听失真的方式将内容归零。这种归零是使压缩有损的原因。零越多，冗余数据越多，压缩效果越好。请注意，这是非常广泛的，并且 MP3 规范/实现涉及更多。如果您查看链接答案中的 MP3 频谱图，尤其是 128kbps 示例，您可以使用目视检查来查看橙色/红色信号周围的所有黑色、四四方方的东西。这表明使用了有损编解码器。说起来可能有点棘手，

对 CD 的采样率进行上采样可能会产生类似的效果。假设我们从 44.1kHz 开始到 192kHz。我们的输入带宽为 22.1kHz，输出带宽为 96kHz。上采样器需要弄清楚如何处理所有这些内容。一种明智的方法是将所有内容“设置”为零，因此频谱图将在该上限范围内显示全黑。因此，如果我们看到没有使用较高的带宽，这可能表明它是从较低的速率上采样的。也可能是录制的带宽较低，这基本上意味着它可以以较低的采样率录制而不会丢失信息。这只是一个假设的上采样器，没有关于它如何完成的国际法，并且“归零”的有效性存在实际限制，

检查位深度的变化是我从未尝试过的事情，但无论如何我都会冒险猜测。来自位深度的可听失真在低信号电平时最为明显，并且将表现为谐波失真或噪声。我会寻找一个信号衰减到静音的片段，看看那里发生了什么。也许我们会看到一些谐波弹出，或者一些看起来不应该存在的噪声，也许这些幅度会给我们一个比特深度的估计。

其它你可能感兴趣的问题

上一篇离散傅里叶变换的零频率居中下一篇编程声码器