如何理解用于音频分类的卷积深度置信网络?

机器算法验证 分类 无监督学习 直觉 深度信念网络
2022-03-25 22:28:20

Lee 等人的“用于分层表示的可扩展无监督学习的卷积深度信念网络”中。al.( PDF ) 提出了卷积 DBN。该方法还用于图像分类评估。这听起来合乎逻辑,因为存在自然的局部图像特征,例如小角和边缘等。

Lee 等人的“使用卷积深度信念网络进行音频​​分类的无监督特征学习”中。人。该方法适用于不同类型分类的音频。说话人识别、性别识别、电话分类以及一些音乐流派/艺术家分类。

该网络的卷积部分如何解释为音频,就像可以将图像解释为边缘一样?

2个回答

音频应用是二维图像分类问题的一维简化。音素(例如)是图像特征(例如边缘或圆)的音频模拟。在任何一种情况下,这些特征都具有重要的局部性:它们的特征在于图像位置或语音时刻的相对较小邻域内的值。卷积是局部邻域内值的一种受控的、规则的加权平均形式。由此产生了一种希望,即 DBN 的卷积形式可以成功地识别和区分有意义的特征。

在将卷积 RBM 应用于音频数据的情况下,作者首先进行了短期傅里叶变换,然后在频谱上定义了能带。然后他们在转换后的音频上应用了卷积 RBM。