我正在尝试检测和分类非语音。目前,我正在使用来自训练声音的一系列移动重叠功率谱作为我正在寻找的特征。
当我进行分析时,我只是计算相同数量的重叠光谱,以便特征数量相同。目前性能不是很好,只能检测静音与非静音。
这种类型的信号检测有哪些技术?我担心的一个问题是,对于时域中不同长度的声音会导致不同长度的特征向量,所以我不能使用相同的分类器,我被困在这个问题上。
我正在尝试检测和分类非语音。目前,我正在使用来自训练声音的一系列移动重叠功率谱作为我正在寻找的特征。
当我进行分析时,我只是计算相同数量的重叠光谱,以便特征数量相同。目前性能不是很好,只能检测静音与非静音。
这种类型的信号检测有哪些技术?我担心的一个问题是,对于时域中不同长度的声音会导致不同长度的特征向量,所以我不能使用相同的分类器,我被困在这个问题上。
您是在尝试检测语音与非语音,还是您试图区分非语音的类别?我不清楚你的问题。
我认为一个不错的第一种方法是将您的信号分成帧并计算梅尔频率倒谱系数(MFCC),以及 delta-MFCC(相邻帧的 MFCC 之间的差异)和 delta-delta MFCC(MFCC 之间的差异)在相隔两帧的帧中)。这不是唯一的方法,但如果没有更具体的问题域知识,这可能是一个很好的起点。
如果您还不熟悉 MFCC,只需谷歌搜索就可以为您提供一些关于如何计算 MFCC 的很好的参考。基本上你采用DFT,采用幅度,计算与人类听觉相对应的三角形窗口内的能量,采用这些系数的DCT,基本上作为压缩步骤,然后丢弃高阶系数,通常只采用前十二个系数. 我在这篇文章中对 DCT 步骤的含义进行了解释:如何解释 MFCC 提取过程中的 DCT 步骤?
然后,您可以使用这些系数作为 SVM 的特征。
我认为您通常正在研究语音检测问题,该问题一直存在,并且现在已经开发出无数种方法来做到这一点。例如,这篇论文看起来也使用了光谱技术,因此您可能想从那里开始。一个好的旧谷歌搜索将返回许多带有论文和文章链接的结果。
通常有两种不同的语音检测方法。一种允许假设良好的语音噪声比(语音比环境噪声、音乐、其他不相关的内容更响亮),而另一种则不做这样的假设,并尝试在非常嘈杂的信号中识别语音的存在(语音隐藏在噪音)。根据您尝试执行的操作,您最终会看到非常不同的论文。也许如果您稍微澄清一下您的问题并详细说明您正在使用的语音信号的类型,这个网站可能会提供更多帮助。