我目前正在尝试训练用于语音识别的 CNN-HMM 声学模型。
CNN 模型能够在给定上下文窗口 x(限制尚未测试 - 但适用于 50)帧的情况下检测来自频谱图的中心单声道。CNN 为我提供了中心单声道的所有可能单声道的后验概率,但我不确定我应该如何将它与诸如 HMM(隐马尔可夫模型)之类的过渡模型结合起来,因为 CNN(卷积神经网络)已经提供了所有可能音素的后验概率。
我应该如何训练 HMM?由于我正在对单音素进行分类,因此我似乎很难理解在这里使用 HMM 是否合适,因为每个 HMM 只有一个状态,并编码一个单音素,而后验概率本身就提供了这种状态。
是否可以将 CNN 和 HMM 以一种完整的方式结合起来,我正在使用kaldi,并且数据集由一位发言者的 yesno 话语组成。(简单案例)。
