在手机上实时检测人类语音

信息处理 声音的 演讲 即时的
2021-12-27 17:44:49

我正在寻找开发一个Android应用程序。作为功​​能的一部分,该应用程序需要随机采样 3-5 秒的音频并将其分类为是否包含人类语音。我明白这个概念叫做语音活动检测?

在手机上实现此功能的最佳方法是什么。我使用基于能量的特征和阈值开发了一个基本系统。我希望找到不太容易受到噪音影响的东西,可能使用 MFCC 或共振峰等功能?我确实浏览了许多论文,但其中大多数都需要我收集数据和训练模型。我可以使用任何可以实时工作的库或框架吗?

1个回答

我相信http://www.speex.org/上的 speex开源代码里面有 VAD。尝试看看您是否可以看到它并获得一些实施想法,并遵守他们的许可。