我有一些录音(具有相对静态但嘈杂的背景,例如,空旷区域的风),有少量短暂的语音(约 1% 的总音频持续时间)。
以无人监督的方式检测语音发生的好方法是什么?
我在频谱图上尝试过简单的阈值化,但这是有问题的,因为:
- 背景的强度会随着时间的推移而变得谨慎(即有时噪音会更大)
- 不同的语音片段不需要彼此相似
- 通常,语音太安静(与背景的平均响度相比)并且被噪音覆盖
这似乎是一项艰巨的任务,但是我可以通过收听音频/查看频谱图轻松注意到语音片段,因为语音的频谱图具有一些独特的结构(尽管依靠该结构进行检测并非易事因为它仍然很不规则)。
- 请注意,我只想检测听起来像人类语音的间隔(或者说,与背景足够不同的东西,因为数据通常除了背景/语音之外没有其他声源)。