我正在为 PC 开发一个实时记录麦克风数据的应用程序,并在应用一些效果后播放它。
我只想在一个已知的说话者说话时应用这些效果。环境可能包括其他人的声音和室内噪音(例如,教室或餐厅)。
由于那个单一的扬声器也拿着麦克风,我试图简单地根据(可配置的)音量级别过滤输入数据。这种方法很有效,但效果不是很好,因为有时环境噪音可能会超过阈值,或者说话者的声音可能会低于阈值。
有没有更好的方法来识别单个扬声器?我已经阅读了关于使用特征提取和 HMM/GMM 进行说话人识别的文章,但我不确定这对我的案例来说是否是矫枉过正。
如果这太模糊了,我深表歉意。我是 DSP 的新手,所以我不确定需要哪些额外信息来回答这个问题。谢谢!
编辑:
- 演讲者通常一个接一个地讲话,但也有可能出现背景喋喋不休。
- 此外,虽然扬声器是已知的,但我确实需要某种初始设置程序(将应用程序调整到该扬声器)。