我正在尝试从声音文件中提取特征并将声音分类为属于特定类别(例如:狗吠、车辆发动机等)。我想澄清以下几点:
1)这完全可行吗?有些程序可以识别语音,并区分不同类型的狗叫。但是是否有可能有一个程序可以接收声音样本并说出它是什么类型的声音?(假设有一个包含大量声音样本的数据库可供参考)。输入声音样本可能有点嘈杂(麦克风输入)。
2)我假设第一步是音频特征提取。本文建议提取 MFCC 并将它们提供给机器学习算法。MFCC 够用吗?还有其他通常用于声音分类的功能吗?
感谢您的时间。
我正在尝试从声音文件中提取特征并将声音分类为属于特定类别(例如:狗吠、车辆发动机等)。我想澄清以下几点:
1)这完全可行吗?有些程序可以识别语音,并区分不同类型的狗叫。但是是否有可能有一个程序可以接收声音样本并说出它是什么类型的声音?(假设有一个包含大量声音样本的数据库可供参考)。输入声音样本可能有点嘈杂(麦克风输入)。
2)我假设第一步是音频特征提取。本文建议提取 MFCC 并将它们提供给机器学习算法。MFCC 够用吗?还有其他通常用于声音分类的功能吗?
感谢您的时间。
非语言音频(更不用说环境)似乎是主流机器学习媒体类型(如图像、语音、文本)的小兄弟。
要回答您的问题,是否可以训练网络来识别给定的声音?是的!但这也很困难,原因与机器学习很难。
然而,真正阻碍音频的原因,以及为什么我称它为图像和语音的小兄弟,是因为音频缺乏大规模的标记数据集。对于语音有 TIMIT,对于图像有几个 ImagenNet、CIFAR、Caltech,对于文本和自然语言处理有大量的文献等。
据我所知,最大的两个非语言人类*标记音频数据集是 UrbanSounds 和 ESC-100 数据集,它们对于真正的深度学习方法来说太小了。使用 2 层 ConvNet 在这些数据集上发布了一些混合结果。
MFCC 特征通常是语音识别和音频分析中公认的基线特征表示。但是还有很多其他的音频特征表示!本文对音频特征类型进行了很好的分类。
我最近看到的最令人兴奋的声音分类工作是由 DeepMind 的一些人完成的,称为WaveNet。
这是一个针对 10 个类别的声音分类的解决方案:狗吠、汽车喇叭、儿童玩耍等。它基于使用神经网络的 tensorflow 库。通过将声音片段转换为频谱图来提取特征
是的,这是非常可行的。尽管神经网络在这种分类训练方面表现出色,但它们甚至可能不是必需的——如果选择了一组精选的特征,那么只有经典的聚类算法(如高斯混合模型或主成分分析)可能也能做到. 现代图书馆可以在大约 95% 或更多的时间内正确处理这些内容。