我正在阅读这篇论文:Skype 翻译器,他们使用 CD-DNN-HMM(具有隐马尔可夫模型的上下文相关深度神经网络)。我可以理解项目的想法和他们设计的架构,但我不明白senones是什么。我一直在寻找定义,但我没有找到任何东西
— 我们提出了一种新颖的上下文相关 (CD) 模型,用于大词汇量语音识别 (LVSR),该模型利用了在使用深度信念网络进行电话识别方面的最新进展。我们描述了一种预训练的深度神经网络隐马尔可夫模型 (DNN-HMM) 混合架构,该架构训练 DNN 以产生对Senones(并列三音素状态)的分布作为其输出
如果您能给我一个解释,我将不胜感激。
编辑:
我在这篇论文中找到了这个定义:
我们建议用马尔可夫状态对子语音事件进行建模,并将语音隐藏马尔可夫模型中的状态视为我们的基本子语音单元——senone。词模型是依赖于状态的senones的串联,并且senones可以在不同的词模型之间共享。
我猜它们在第一篇论文的架构的隐马尔可夫模型部分中使用了。它们是 HMM 的状态吗?DNN 的输出?