音频质量评估

信息处理 声音的 演讲
2022-02-07 18:56:02

我正在创建一个数据集,其中许多说话者使用不同的麦克风和在不同的环境中记录他们的语音信号。我想评估音频的质量并丢弃质量差的音频。请提供有关商品测量的线索(如 SNR、PESQ(有参考)),以便可以创建干净的数据集。

具体来说,我想从音频中检查麦克风质量并丢弃低质量的音频。

另请告知这些测量的理想值。

1个回答

这是我认为可行的解决方案,可能还有其他更准确和有效的方法可以做到这一点。

您可以对每个录音执行以下步骤:

  1. 找到无声部分(使用下面所述的算法)
  2. 测量录音中那些无声部分的标准偏差作为噪声功率的指示。
  3. 选择您确定具有可接受质量的录音的静音部分的标准偏差作为您的阈值。

  4. 丢弃其估计噪声功率高于指定阈值(您在步骤 3 中估计)的任何其他记录。

为了检测语音的无声部分,我建议将您的信号简单地分割成一些不重叠的窗口,估计信号功率

Power=sum(Segmenti2)/lenght(Segmenti)

任何信号功率低于每个定义的阈值的信号段都可能被视为静默段。但是这种方法不是很准确。如果您有足够的时间,请尝试使用更广泛的称为语音活动检测 (VAD) 的算法(ITU-T G.729 标准使用 VAD 来降低语音静音期间的传输速率)。请看一下http://practicalcryptography.com/miscellaneous/machine-learning/voice-activity-detection-vad-tutorial/