如何将电话音频分割成静音/非静音?

信息处理 声音的 语音识别
2022-01-02 17:16:13

我的问题是我不知道背景噪声的能量,所以我不能仅仅限制能量。处理是实时完成的,我有大约 500 毫秒的时间来决定。理想情况下,我希望安静的辅音被认为是非沉默的。

1个回答

您可以查看一堆参数:

  1. 总能量
  2. 短期频谱:语音具有相当独特的“粉红色”频谱,而噪声(发生在非语音部分)如果以电为主,则趋向于白色,如果是声学背景,则趋向于“红色”(即低频重)噪音或麦克风噪音
  3. 幅度统计。大多数噪声信号具有高斯分布,语音更接近拉普拉斯分布

我认为这三者的组合应该提供一个相当强大的检测方案。