信息处理 - 实时单说话人识别 - 吾爱随笔录

我正在为 PC 开发一个实时记录麦克风数据的应用程序，并在应用一些效果后播放它。

我只想在一个已知的说话者说话时应用这些效果。环境可能包括其他人的声音和室内噪音（例如，教室或餐厅）。

由于那个单一的扬声器也拿着麦克风，我试图简单地根据（可配置的）音量级别过滤输入数据。这种方法很有效，但效果不是很好，因为有时环境噪音可能会超过阈值，或者说话者的声音可能会低于阈值。

有没有更好的方法来识别单个扬声器？我已经阅读了关于使用特征提取和 HMM/GMM 进行说话人识别的文章，但我不确定这对我的案例来说是否是矫枉过正。

如果这太模糊了，我深表歉意。我是 DSP 的新手，所以我不确定需要哪些额外信息来回答这个问题。谢谢！

编辑：