实时单说话人识别

信息处理 声音的 即时的 演讲
2022-02-08 17:48:01

我正在为 PC 开发一个实时记录麦克风数据的应用程序,并在应用一些效果后播放它。

我只想在一个已知的说话者说话时应用这些效果。环境可能包括其他人的声音和室内噪音(例如,教室或餐厅)。

由于那个单一的扬声器也拿着麦克风,我试图简单地根据(可配置的)音量级别过滤输入数据。这种方法很有效,但效果不是很好,因为有时环境噪音可能会超过阈值,或者说话者的声音可能会低于阈值。

有没有更好的方法来识别单个扬声器?我已经阅读了关于使用特征提取和 HMM/GMM 进行说话人识别的文章,但我不确定这对我的案例来说是否是矫枉过正。

如果这太模糊了,我深表歉意。我是 DSP 的新手,所以我不确定需要哪些额外信息来回答这个问题。谢谢!


编辑:

  • 演讲者通常一个接一个地讲话,但也有可能出现背景喋喋不休。
  • 此外,虽然扬声器是已知的,但我确实需要某种初始设置程序(将应用程序调整到该扬声器)。
1个回答

我打算建议机器学习路线,但快速搜索出现了 OSS,因此您可能不必重新发明轮子:使用 sndpeek 识别扬声器

演讲者是互相交谈(这使事情复杂化)还是主要是一个接一个?