数据挖掘 - 训练具有有限权重共享的 CNN - 吾爱随笔录

我目前正在使用语音识别，我想尝试使用 CNN 而不是正常的特征提取步骤。

我一直在阅读这篇论文，它提出了使用 cnn 的方法。输入是音频文件的 mel-log 滤波器组能量的可视化表示。

并且对于图像的每个第三帧部分（a 帧，b 频率带），输出是音素识别。

该网络是一个 CNN，他们提出了一种不同的权重共享 - 有限的权重共享，因为所寻找的模式不会在图像上的任何地方均等地出现，而是局限于某些频率区域。

对不同频带使用单独的权重集可能更合适，因为它允许沿频率轴检测不同滤波器频带中的不同特征模式。图 5 显示了 CNN 的有限权重共享 (LWS) 方案的示例，其中只有连接到同一池化单元的卷积单元共享相同的卷积权重。这些卷积单元需要共享它们的权重，以便它们计算可比较的特征，然后可以将这些特征汇集在一起。

我不确定我是否理解这种重量共享的概念..

是否应该为每一帧共享权重但限制频率范围？

还是应该对每个帧和频率范围都进行限制？

他们对这种权重共享进行了说明：

从我可以从图像中破译的内容 - 是有限重量共享选项 2。

每帧没有相同的权重，对同一帧应用多个卷积，下一帧的卷积以比前一帧更低的频率开始，并且步幅 = 2。所以不知何故，卷积只在图像的对角线……听起来很奇怪？

听起来我在这里误解了一些东西？关于如何实施的任何想法？