是否可以通过自动使用软件来“确定”/“评估”音乐音频/视频记录的感知质量?

信息处理 音乐 感知质量 品质因数
2022-02-16 12:58:42

我收集了大量由不同艺术家在现场表演中录制的音频/视频盗版。几十年来,这些录音都来自非常不同的来源和人,收藏中的所有录音都只是音频/视频文件。由于馆藏很大,馆藏的总运行时长大概是几百个小时。

每个录音的质量各不相同:一些录音听起来很棒(我们称之为“10”),但其中一些听起来更像是噪音(“1”),仍然是特定艺术家收藏家的兴趣点。让我这样说,“质量”是指它对我或其他任何人来说看起来和听起来“有多好” (而不是录音编码或压缩的音频/视频编解码器设置;而不是特定的艺术家表演——这是个人品味的问题,而不是音频/视频质量)。当我十多年前开始收集盗版时,我记得,我可以找到其中许多的特征,例如“质量:A+”(非常好)或“质量:B-”(没那么糟糕,但会引起人们的兴趣)集电极。)

例如:

  1. 如果现场录音听起来好像是在工作室录制的,那么它可能会被评估为“9”甚至“10”(无论使用有损或无损音频编解码器);

  2. 如果录音显示出明显的视觉 VHS 伪影,例如蓝/红/绿条纹(只是因为录音是在磁带上录制的),但整体画面非常好,则可以将其评估为“5+”到“7” ";

  3. 如果录音听起来非常“低音”并且低频在高频中占主导地位,则可能会将其评估为“3-”,因为音频可能被认为质量非常低,等等。如果存在这样的事情,我想它也可能会适用于音频、视频和图像;

  4. 和更多...

是否可以以软件的方式分析录音,而不是听/看,以“确定”/“评估”其主观质量?

这个问题看起来非常类似于Analyzing the quality of a music track (and possible audio quality evaluation ) ,但不能真正说出它有多接近。

(请注意,我在这方面的知识为零,可能使用错误的术语并且可能会提出一些不真实的问题。我试图找出它的唯一原因是通过将“质量”标签放入其中来编辑文件元数据,从而评估整个系列的平均/整体质量没有花费数周时间聆听或观看所有录音,无论我可能使用什么硬件。也不确定这个问题是否最好在软件推荐或声音设计中提出。)

2个回答

是否有可能以软件方式分析录音...以“确定”/“评估”其主观质量

是的,很有可能;所有人都需要在数学上定义什么是“优质” - 以及足够的数据。完整的管道可能涉及:

  1. 了解音频的基本信号处理分解(即构建模块) - 参见DSP 指南
  2. 通过变换提取相关特征,例如小波散射时频散射(均在Kymatio实现)、同步压缩、MFCC等。
  3. 应用具有合适目标函数的学习算法:
    • 该函数可以是特征空间中“距离”的度量。这可以通过根据提取的特征为被认为是“好音乐”的“模板”来完成。
    • 测试阶段可能涉及对测试对象的直接主观评估,就像在自然语言处理中一样——但优化函数必须完全是数学的。
    • 成功需要足够的数据。更好的特征工程和迁移学习(例如 NLP 转换器)降低了要求。

我不熟悉任何特定的软件,也不是该领域的专家——但我认识一些专家;值得在这里问。

我认为,如果最近的“AI”热潮真的有很多,那么在这里做你想做的事将是小菜一碟。我认为这根本不可行。祝你好运