训练 CNN-HMM 模型

信息处理 语音识别 深度学习
2022-02-05 17:37:39

我目前正在尝试训练用于语音识别的 CNN-HMM 声学模型。

CNN 模型能够在给定上下文窗口 x(限制尚未测试 - 但适用于 50)帧的情况下检测来自频谱图的中心单声道。CNN 为我提供了中心单声道的所有可能单声道的后验概率,但我不确定我应该如何将它与诸如 HMM(隐马尔可夫模型)之类的过渡模型结合起来,因为 CNN(卷积神经网络)已经提供了所有可能音素的后验概率。

我应该如何训练 HMM?由于我正在对单音素进行分类,因此我似乎很难理解在这里使用 HMM 是否合适,因为每个 HMM 只有一个状态,并编码一个单音素,而后验概率本身就提供了这种状态。

是否可以将 CNN 和 HMM 以一种完整的方式结合起来,我正在使用kaldi,并且数据集由一位发言者的 yesno 话语组成。(简单案例)。

1个回答

美国有线电视新闻网

假设您有个电话并且 CNN为生成后验概率Pp0,p1,,pP1xi=x(pi)i=0,,P1

隐马尔可夫模型是具有个状态的系统,可以产生个观测值Ss0,,sS1Oo0,,oO1

从状态跳转到状态的概率是,这由状态转换(概率)矩阵捕获。 sisjaijA=[aij]

输出由状态以概率生成,形成输出矩阵oisjbijB=[bij]

如何连接它们?

因此,假设您的电话是 HMM的状态(因此)。pisiS=P

但在那之后,我真的不能说。并不是真正的a_他们也不是xiaijbij

这篇论文包含下面的图片......但他们的解释对我来说并不是很清楚。在此处输入图像描述

早上我会再读一遍报纸,看看是否能说明问题。