(CNN+)RNN-HMM 混合用于从频谱图学习音素

数据挖掘 喀拉斯 rnn 卷积神经网络 音频识别
2022-02-24 05:33:50

我目前正在从事语音识别任务,将深度学习应用于标准声学模型(gmm-hmm)。

我目前已经生成了我的话语的频谱图,并且使用简单的模式识别成功地在是/否数据集上获得了 40% 的 WER。虽然不是很好,但只是一个开始。CNN 被提供一个 40 帧的上下文窗口,其中正在检测中心帧,我的问题是使用 RNN 是否可以在这里受益?以便 RNN 处理上下文,而 CNN 对一帧频谱图进行“图像分析”。

如果是这样,它的实现是否会导致一些问题,当我使用 CNN 进行此操作时,是否通过对频谱图的较大部分进行模式识别来解决上下文依赖关系,具体取决于上下文窗口大小,但仅引入 RNN,CNN当时必须对一帧进行分析(我认为甚至可以从中获得适当的结果),并且可以将一帧信息通过管道传输到 RNN 直到达到特定的上下文大小?如果是这样怎么办?

1个回答

你见过这个吗...

http://ieeexplore.ieee.org/document/7953168/

... 我们建议使用最近开发的深度学习模型循环卷积神经网络 (RCNN) 进行语音处理,它继承了循环神经网络 (RNN) 和卷积神经网络 (CNN) 的一些优点。核心模块可以看作是嵌入了 RNN 的卷积层,它使模型能够以有效的方式捕获语音频谱图中的时间和频率相关性。

听起来对您正在搜索或尝试实施的内容非常准确。