信息处理 - 清洁电话音频 - 吾爱随笔录 - 问答

清洁电话音频

信息处理噪音语音处理语音识别

2022-02-16 14:58:14

我有 16kHz 的电话音频，我正在尝试将它与将口语字母转换为文本的语音转录引擎一起使用。但是，由于音频质量低，引擎在转录某些字母（例如“p”和“t”）时遇到了一些困难。

这是在实时应用程序中使用的，因此尽管我希望用户在安静的环境中对着麦克风清晰地讲话，但这种情况并不常见。转录引擎有自己的背景噪音去除功能，但它没有经过电话音频培训。

鉴于我的无知，我希望有人可以就如何人为地“提高”音频质量提出一些建议。我知道这很模糊，但我想尝试让音频中的语音更容易辨别，并尝试使用转录引擎。

我可以尝试消除静电吗？是否可以“放大某个字母独有的信号”？

谢谢

4个回答

转录引擎有自己的背景噪音去除功能，但它没有经过电话音频培训。

有许多引擎接受过劣质音频的训练，并且性能恰到好处。

质量已经丢失的情况下修复是相当无望的，最好找到一个准确的引擎。

在这种情况下，我会尝试根据您知道无语的样本的统计属性来实现维纳滤波器。您可以使用 G.729 之类的语音活动检测来检测无语样本。

另一种方法是对频谱中的噪声进行频带静音，这对有色噪声非常有效。

您能否提供有关上下文的更多详细信息？你用的是什么语音识别系统？你能添加代码吗？什么类型的背景噪音？

一种简单的方法是添加一个预加重滤波器。更好的方法是添加第二个麦克风来捕捉背景噪音，然后将其移除。

按照建议尝试使用基本的预加重滤波器，增强语音信号的中高频。这可能取决于噪声的频谱时间特性。

其它你可能感兴趣的问题

上一篇频域中的归一化互相关下一篇频率分析：FFT 大小和采样之间的关系