这个问题让我感兴趣了一段时间,主要是因为我自己正在为现有的语音识别系统进行降噪。
大多数关于降噪技术的论文似乎都集中在如何让人类更容易理解语音,或者如何改善“语音质量”等模糊术语。
我敢肯定,使用这样的标准,您可以识别使嘈杂的语音信号更容易被人类听到的过滤器。但是,我不确定在尝试评估已去噪的语音信号以提高语音识别系统的准确性时,是否可以简单地调整这些标准。
我真的找不到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的措施可以评估去噪语音信号对于语音识别系统的“好”程度,例如,如果还给出原始干净的语音?或者是找出你的降噪技术有多好的唯一方法,在去噪数据上训练语音识别系统并查看准确性?
如果有人能指出我正确的方向,或者提供一些讨论这个问题的论文,我会很高兴。提前致谢!