用于语音识别的降噪与应该使语音对人类更“可理解”的降噪有何不同?

信息处理 噪音 语音识别 语音处理 降噪
2022-01-01 13:40:54

这个问题让我感兴趣了一段时间,主要是因为我自己正在为现有的语音识别系统进行降噪。

大多数关于降噪技术的论文似乎都集中在如何让人类更容易理解语音,或者如何改善“语音质量”等模糊术语。

我敢肯定,使用这样的标准,您可以识别使嘈杂的语音信号更容易被人类听到的过滤器。但是,我不确定在尝试评估已去噪的语音信号以提高语音识别系统的准确性时,是否可以简单地调整这些标准。

我真的找不到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的措施可以评估去噪语音信号对于语音识别系统的“好”程度,例如,如果还给出原始干净的语音?或者是找出你的降噪技术有多好的唯一方法,在去噪数据上训练语音识别系统并查看准确性?

如果有人能指出我正确的方向,或者提供一些讨论这个问题的论文,我会很高兴。提前致谢!

1个回答

我真的找不到讨论这种差异的论文。

关于这个主题有整本书:

强大的自动语音识别第一版

语音清晰度和语音质量是否与语音识别系统的准确性相关?

通常不会,通常降噪会以不可预测的方式破坏特征并降低语音识别的准确性。

是否有客观的措施可以评估去噪语音信号对于语音识别系统的“好”程度,例如,如果还给出原始干净的语音?或者是找出你的降噪技术有多好的唯一方法,在去噪数据上训练语音识别系统并查看准确性?

第二。此外,基于特征的降噪实际上完全从频谱中删除了重要信息,因此您无法修复干净系统的准确性。出于这个原因,现代方法是对噪声数据执行多样式训练,而不是事先使用降噪算法。它以更准确的识别结束。