我有一个包含数千个声音事件的巨大标记数据集,包括人声、洗碗、掉在地上的东西等等。
我需要报告人声事件何时发生。请注意,这不是简单的语音活动检测 (VAD),因为还有其他声音事件与语音竞争(在 VAD 中,它们通常只关注表现良好的噪声)。
到目前为止,我的方法是训练具有 MFCC 特征的二进制 SVM 分类器(语音和非语音类)。即使在参数优化和修改不同数量的 MFCC 系数之后,对于这样一个简单的任务,性能还是很糟糕......
是否有任何启发式方法或任何东西可以帮助区分语音和我错过的非语音事件?
(这个相关的问题类似,但我不需要完全“消除”其他声音,我首先在寻找可能的启发式方法来改进分类。这篇文章是我最后的手段。)