因为我可能会为其他设备以有损格式编码我的音乐或对其进行编辑,所以我更喜欢保留我的音乐的高分辨率副本。但是,我知道可以使用 ffmpeg 对文件进行上采样,并且它看起来与使用 ffprobe 的真实高分辨率文件相同。无论如何,我是否可以将“假”高分辨率文件(从 CD 质量或 mp3/aac 转换而来)与“真实”高分辨率文件(制作人导出的高分辨率文件)区分开来?
如何判断高分辨率 flac 文件是否已从 CD 质量文件中上采样?
让我们先了解一些基础知识。
音频格式基本上由三个不同的东西定义:采样率、位深度和压缩类型。压缩类型可以是无损(WAV、PCM、FLAC、ALAC)或“有损”(AAC、MP3、OGG、MQA 等)。有损压缩通过对量化噪声进行整形来工作,因此它被剩余的内容所掩盖并且听不见。有损格式的特征在于它们的比特率:比特率越高,进行的量化就越少。
典型的生命周期如下:录音、混音和发生在 96kHz 浮点。完成后,通常会制作两个母版:一个 96kHz/24 位的工作室母版和一个 44.1kHz/16 位的 CD 母版。
标签会将这两者之一发送到分销渠道,例如 Spotify。哪一个取决于合同。然后,Spotify 将为他们的流媒体平台创建他们需要的格式,其中几乎总是包括有损压缩。例如,Spotify 以 320 kb/s 的速度使用 OGG。Apple Music 以 256 kb/s 的速度使用 AAC。哪种格式到达客户取决于客户与分销商之间的合同。
无论如何我可以区分“假”高分辨率文件(从 CD 质量或 mp3/aac 转换)与“真实”高分辨率文件
以下是光谱分析中需要注意的一些事项
- 每种格式都有自己的衰减:CD 在 20 kHz 时像石头一样下降,而 MP3 在 16 kHz 时急剧下降。如果您的 96 kHz 文件具有这些急剧下降,则它可能已被上采样。
- 检查 20 kHz 以上的内容。如果那里有随机的“类似噪音”的特征,它可能是真的。如果它的内容非常少和/或内容看起来像 20 kHz 以下内容的低通滤波镜像,则它已被上采样。
- 您可以查看高频的相关性。对于真正的录音,这通常是不相关的。如果存在显着相关性,则可能是“联合立体声编码”的潜在迹象,可能暗示有损压缩。
- 看看录制日期:如果它是在 1990 年之前制作的,那么几乎可以保证是上采样的。从来没有数字工作室母带,他们能做的最好的就是对磁带母带进行采样。
一些格式,如MQA,包括身份验证,即它们在内容上加了一个“印章”,可以检测“印章”是否被篡改。也可以在内容上添加水印。
更新
您也可以检测位填充:任何“体面”的 CD 质量文件都经过适当的噪声整形和抖动处理。这种迹象可能会在上采样过程中被检测到。我从来没有尝试过,所以我不知道它有多可行,但尝试一下肯定会很有趣。
从麦克风到扬声器的信号路径保持 96kHz 的文件具有高达 48kHz 的信号分量的潜力。大多数物理声源、房间和麦克风都会向这些频率滚动,但缓慢而温和。
如果 96kHz 文件的频谱在 22 或 24kHz 处有砖墙滤波的迹象,这可能表明信号链中的某处使用了 44.1 或 48kHz 采样。这可能意味着音乐家使用的合成器具有 48kHz D/A 转换器。
最后,如果你听不到区别,那有关系吗?Afaik,没有人能够可靠地听到 44.1/16 位系统在公平条件下的退化(以一种可以让你在科学期刊上发表结果的方式。关于各种东西的传闻在高保真人中盛行)。
您可以尝试使用频谱图进行取证。我不认为有一个通用的解决方案,或者任何方式可以确定哪些格式可以被检测为已被上采样。请参阅以下精美照片:https ://sound.stackexchange.com/questions/37730/which-spectrogram-shows-higher-quality-of-the-song
MP3 使用称为霍夫曼编码的无损压缩方案工作,当存在冗余数据时,该方案可以实现非常高的压缩比。编码器可能会使用 MDCT-IV(我认为)对输入进行时频分析,将结果与心理声学模型进行比较,并以最小化可听失真的方式将内容归零。这种归零是使压缩有损的原因。零越多,冗余数据越多,压缩效果越好。请注意,这是非常广泛的,并且 MP3 规范/实现涉及更多。如果您查看链接答案中的 MP3 频谱图,尤其是 128kbps 示例,您可以使用目视检查来查看橙色/红色信号周围的所有黑色、四四方方的东西。这表明使用了有损编解码器。说起来可能有点棘手,
对 CD 的采样率进行上采样可能会产生类似的效果。假设我们从 44.1kHz 开始到 192kHz。我们的输入带宽为 22.1kHz,输出带宽为 96kHz。上采样器需要弄清楚如何处理所有这些内容。一种明智的方法是将所有内容“设置”为零,因此频谱图将在该上限范围内显示全黑。因此,如果我们看到没有使用较高的带宽,这可能表明它是从较低的速率上采样的。也可能是录制的带宽较低,这基本上意味着它可以以较低的采样率录制而不会丢失信息。这只是一个假设的上采样器,没有关于它如何完成的国际法,并且“归零”的有效性存在实际限制,
检查位深度的变化是我从未尝试过的事情,但无论如何我都会冒险猜测。来自位深度的可听失真在低信号电平时最为明显,并且将表现为谐波失真或噪声。我会寻找一个信号衰减到静音的片段,看看那里发生了什么。也许我们会看到一些谐波弹出,或者一些看起来不应该存在的噪声,也许这些幅度会给我们一个比特深度的估计。