我想写一个代码来检测婴儿哭声。我使用 Windows 作为平台。目前,我能够获得音频样本及其频率图(使用 FFT),但不知道如何继续。
我想问我应该遵循什么步骤来检测婴儿哭声的时频图。
我在语音识别中看到了一些方法,例如中值滤波后跟 HMM。但是对于简单的声音检测,我需要采用这种复杂的方法吗?
如果您能帮助我,我将不胜感激。
我想写一个代码来检测婴儿哭声。我使用 Windows 作为平台。目前,我能够获得音频样本及其频率图(使用 FFT),但不知道如何继续。
我想问我应该遵循什么步骤来检测婴儿哭声的时频图。
我在语音识别中看到了一些方法,例如中值滤波后跟 HMM。但是对于简单的声音检测,我需要采用这种复杂的方法吗?
如果您能帮助我,我将不胜感激。
如果你走有监督的学习路线,这篇论文可能正是你所需要的,它很好地比较了逻辑回归和卷积网络
http://www.ieee.org.il/wp-content/uploads/2016/11/2016_ICSEE_paper_206.pdf
在这项工作中,提出了两种机器学习算法来检测录音中的婴儿哭声:逻辑回归分类器和更复杂的 CNN 分类器。结果表明,与逻辑回归分类器相比,CNN 分类器具有相当大的优势。由于 CNN 自然适合大型训练数据集和多类分类,我们计划训练一个 CNN 分类器来检测除哭声信号之外的各种家庭声音。
由于您有频率桶信息,因此您基本上有一个频率直方图。
如果将直方图视为 n 维向量,则可以使用点积来获得从 0 到 1 的相似性值,并可以对其进行调整,以便将值大于 0.6 的声音视为匹配。
或者,您可以更高级一些并使用支持向量机,这需要训练负数和正数数据来找到区分命中和未命中的方法。