我目前正在使用语音识别,我想尝试使用 CNN 而不是正常的特征提取步骤。
我一直在阅读这篇论文,它提出了使用 cnn 的方法。输入是音频文件的 mel-log 滤波器组能量的可视化表示。
并且对于图像的每个第三帧部分(a 帧,b 频率带),输出是音素识别。
该网络是一个 CNN,他们提出了一种不同的权重共享 - 有限的权重共享,因为所寻找的模式不会在图像上的任何地方均等地出现,而是局限于某些频率区域。
对不同频带使用单独的权重集可能更合适,因为它允许沿频率轴检测不同滤波器频带中的不同特征模式。图 5 显示了 CNN 的有限权重共享 (LWS) 方案的示例,其中只有连接到同一池化单元的卷积单元共享相同的卷积权重。这些卷积单元需要共享它们的权重,以便它们计算可比较的特征,然后可以将这些特征汇集在一起。
我不确定我是否理解这种重量共享的概念..
是否应该为每一帧共享权重但限制频率范围?
还是应该对每个帧和频率范围都进行限制?
他们对这种权重共享进行了说明:
从我可以从图像中破译的内容 - 是有限重量共享选项 2。
每帧没有相同的权重,对同一帧应用多个卷积,下一帧的卷积以比前一帧更低的频率开始,并且步幅 = 2。所以不知何故,卷积只在图像的对角线……听起来很奇怪?
听起来我在这里误解了一些东西?关于如何实施的任何想法?