深度神经网络中的senones是什么?

机器算法验证 神经网络 深度学习 术语 自然语言 隐马尔可夫模型
2022-03-03 02:24:40

我正在阅读这篇论文:Skype 翻译器,他们使用 CD-DNN-HMM(具有隐马尔可夫模型的上下文相关深度神经网络)。我可以理解项目的想法和他们设计的架构,但我不明白senones是什么。我一直在寻找定义,但我没有找到任何东西

— 我们提出了一种新颖的上下文相关 (CD) 模型,用于大词汇量语音识别 (LVSR),该模型利用了在使用深度信念网络进行电话识别方面的最新进展。我们描述了一种预训练的深度神经网络隐马尔可夫模型 (DNN-HMM) 混合架构,该架构训练 DNN 以产生对Senones(并列三音素状态)的分布作为其输出

如果您能给我一个解释,我将不胜感激。

编辑:

我在这篇论文中找到了这个定义:

我们建议用马尔可夫状态对子语音事件进行建模,并将语音隐藏马尔可夫模型中的状态视为我们的基本子语音单元——senone词模型是依赖于状态的senones的串联,并且senones可以在不同的词模型之间共享。

我猜它们在第一篇论文的架构的隐马尔可夫模型部分中使用了。它们是 HMM 的状态吗?DNN 的输出?

3个回答

“Senones”是我在 1992 年命名的。请参阅我的 ICASSP 1992 论文[1]。它只是一组共享马尔可夫状态的花哨名称,代表类似的声学事件。它来自与 IBM fenones 的对比,其中“f”表示“框架”,而我的“s”表示“状态”。

最初的想法来自我 1991 年的 Eurospeech(现在称为 Interspeech)的工作,我在马尔可夫状态上使用自上而下的聚类。你可以在这里找到我 1991 年的 CMU 技术报告:https ://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

1992 年,我决定将其移至树聚类,这样人们也可以对看不见的 cd 手机进行建模。

[1] 黄美玉和黄学东。“带有马尔可夫状态的子语音建模-Senone。” 在 [Proceedings] ICASSP-92:1992 年 IEEE 声学、语音和信号处理国际会议,第一卷。1,第 33-36 页。IEEE,1992。链接:https ://ieeexplore.ieee.org/document/225979

这是我终于明白的:

在此架构中,DNN 用于将噪声转换为音素。

在语音学和语言学中,phone这个词可以指任何被认为是物理事件的语音或手势,而不考虑它在语言音系中的位置。

在此处输入图像描述

DNN 的最后一层由所有可能的音素组成,每个音素有一个输出神经元。这些神经元的激活是输入噪声对应于该电话的概率。

这些激活的组合是隐马尔可夫模型的输入,并建立了 HMM 的 senones,它通过字典获得候选文本列表。

senones 是 HMM 的状态,在下图中,senones 将是 x1 x2 和 x3。

在此处输入图像描述

如果我说错了,请纠正我,希望它有帮助!

在语音识别中,我们经常在对某个电话进行建模时包含一些有关相邻电话的上下文。这意味着我们的系统不仅知道 , 等的电话号码AB而且还有一个E-then-A,O-then-B等的概念X-then-A

这些与上下文相关的单位在文学中被称为senones ,这当然是一个虚构的词。

对于语音识别系统,如果使用 DNN/HMM 混合方法进行声学建模,这些 Senones 通常等于声学模型的 HMM 状态,这可以通过神经网络进行预测。

Senones一词是由Janus 语音识别工具包的开发人员创造的。随后,董宇和李登将其用于他们的 ASR 书。那是在神经网络用于声学建模之前的时间。因此,该术语令人困惑。