我目前正在从事语音识别任务,将深度学习应用于标准声学模型(gmm-hmm)。
我目前已经生成了我的话语的频谱图,并且使用简单的模式识别成功地在是/否数据集上获得了 40% 的 WER。虽然不是很好,但只是一个开始。CNN 被提供一个 40 帧的上下文窗口,其中正在检测中心帧,我的问题是使用 RNN 是否可以在这里受益?以便 RNN 处理上下文,而 CNN 对一帧频谱图进行“图像分析”。
如果是这样,它的实现是否会导致一些问题,当我使用 CNN 进行此操作时,是否通过对频谱图的较大部分进行模式识别来解决上下文依赖关系,具体取决于上下文窗口大小,但仅引入 RNN,CNN当时必须对一帧进行分析(我认为甚至可以从中获得适当的结果),并且可以将一帧信息通过管道传输到 RNN 直到达到特定的上下文大小?如果是这样怎么办?