清洁电话音频

信息处理 噪音 语音处理 语音识别
2022-02-16 14:58:14

我有 16kHz 的电话音频,我正在尝试将它与将口语字母转换为文本的语音转录引擎一起使用。但是,由于音频质量低,引擎在转录某些字母(例如“p”和“t”)时遇到了一些困难。

这是在实时应用程序中使用的,因此尽管我希望用户在安静的环境中对着麦克风清晰地讲话,但这种情况并不常见。转录引擎有自己的背景噪音去除功能,但它没有经过电话音频培训。

鉴于我的无知,我希望有人可以就如何人为地“提高”音频质量提出一些建议。我知道这很模糊,但我想尝试让音频中的语音更容易辨别,并尝试使用转录引擎。

我可以尝试消除静电吗?是否可以“放大某个字母独有的信号”?

谢谢

4个回答

转录引擎有自己的背景噪音去除功能,但它没有经过电话音频培训。

有许多引擎接受过劣质音频的训练,并且性能恰到好处。

质量已经丢失的情况下修复是相当无望的,最好找到一个准确的引擎。

在这种情况下,我会尝试根据您知道无语的样本的统计属性来实现维纳滤波器。您可以使用 G.729 之类的语音活动检测来检测无语样本。

另一种方法是对频谱中的噪声进行频带静音,这对有色噪声非常有效。

您能否提供有关上下文的更多详细信息?你用的是什么语音识别系统?你能添加代码吗?什么类型的背景噪音?

一种简单的方法是添加一个预加重滤波器。更好的方法是添加第二个麦克风来捕捉背景噪音,然后将其移除。

按照建议尝试使用基本的预加重滤波器,增强语音信号的中高频。这可能取决于噪声的频谱时间特性。