我有 16kHz 的电话音频,我正在尝试将它与将口语字母转换为文本的语音转录引擎一起使用。但是,由于音频质量低,引擎在转录某些字母(例如“p”和“t”)时遇到了一些困难。
这是在实时应用程序中使用的,因此尽管我希望用户在安静的环境中对着麦克风清晰地讲话,但这种情况并不常见。转录引擎有自己的背景噪音去除功能,但它没有经过电话音频培训。
鉴于我的无知,我希望有人可以就如何人为地“提高”音频质量提出一些建议。我知道这很模糊,但我想尝试让音频中的语音更容易辨别,并尝试使用转录引擎。
我可以尝试消除静电吗?是否可以“放大某个字母独有的信号”?
谢谢