用频谱分析 mp3 质量,如何解释结果?

信息处理 声音的 频谱 频谱图
2022-01-30 04:31:02

在比较两个不同音频源之间的频谱图像以确定哪个质量更好时,我有时会陷入僵局。例如,考虑以下来自两个 320kbps mp3 文件的图像:

来自 yahel avalanche n1 的 spek 图

来自 yahel avalanche n2 的 spek 图

RGB值的光学差异:

光谱图的差异图像是上述示例的波形同步版本之间的区别,但完全相同)

第二个版本的截止频率为 20 KHz,而第一个版本包含一些高于该频率的音频信息,尽管强度非常低,并且可能听不见。

另一方面,图顶部的这个额外音频部分似乎是噪音,因为它是由一个几乎连续的“模糊”区域组成的。此外,仔细观察这两个图像,可以在较低频率处观察到一些细微的差异。

从理论上讲,我倾向于认为第二个版本质量更好,因为截止下限可能允许编码器更好地利用可用带宽,从而可以更准确地表示较低频率。除此之外,我真的不知道如何解释这两个图像之间的这些细微差异以做出客观的决定。

那么,在比较光谱图像时,哪些具体细节可以帮助确定哪个编码器做得更好呢?

1个回答

在这些相对较高的速率下,(人类)听到差异的可能性在很大程度上取决于播放它的设备。我的第一个建议是依靠一组测试人员(可能是蝙蝠,用于高频),使用最好的音频系统,并计算平均意见分数

我确实同意 20 kHz 左右的频率限制似乎对第二张图像不利,但正如您所说,然后可以更好地分配低频率位(可能是一些)。

与@Marcus Müller 类似,我怀疑第一个高频频段是虚假的。特别是因为它在时频平面上看起来确实是对称的(以真实音频的污染为模),并且混叠假设在这里听起来不错。

正如评论中所说,您可以从另一个中减去一个解压缩的声音。希望通过仔细聆听,您可以检查差异是否有意义。

所以,我也会争取第二个。