训练具有有限权重共享的 CNN

数据挖掘 Python 喀拉斯 卷积神经网络 音频识别
2021-09-26 20:15:02

我目前正在使用语音识别,我想尝试使用 CNN 而不是正常的特征提取步骤。

我一直在阅读这篇论文,它提出了使用 cnn 的方法。输入是音频文件的 mel-log 滤波器组能量的可视化表示。

在此处输入图像描述

并且对于图像的每个第三帧部分(a 帧,b 频率带),输出是音素识别。

该网络是一个 CNN,他们提出了一种不同的权重共享 - 有限的权重共享,因为所寻找的模式不会在图像上的任何地方均等地出现,而是局限于某些频率区域。

对不同频带使用单独的权重集可能更合适,因为它允许沿频率轴检测不同滤波器频带中的不同特征模式。图 5 显示了 CNN 的有限权重共享 (LWS) 方案的示例,其中只有连接到同一池化单元的卷积单元共享相同的卷积权重。这些卷积单元需要共享它们的权重,以便它们计算可比较的特征,然后可以将这些特征汇集在一起​​。

我不确定我是否理解这种重量共享的概念..

是否应该为每一帧共享权重但限制频率范围?

还是应该对每个帧和频率范围都进行限制?

他们对这种权重共享进行了说明:

在此处输入图像描述

从我可以从图像中破译的内容 - 是有限重量共享选项 2。

每帧没有相同的权重,对同一帧应用多个卷积,下一帧的卷积以比前一帧更低的频率开始,并且步幅 = 2。所以不知何故,卷积只在图像的对角线……听起来很奇怪?

听起来我在这里误解了一些东西?关于如何实施的任何想法?

1个回答

重要的是要注意,在执行此操作之前,他们将帧拆分为单独的特征图。注意图 1:

在此处输入图像描述 图表左上角的“45 行”(图 4)对应于 15 帧乘以 3 个特征图。

卷积是一维卷积,因此它们实际上并没有跨多个帧进行卷积,只是跨频率进行卷积。然后作者以正常方式对特征图求和,这意味着对帧和特征进行求和。

另一种看待它的方式是在方程式中。9

在此处输入图像描述

变量 一世只是跨频带的向量。总和超过了包括帧的特征图。