机器算法验证 - 深度神经网络中的senones是什么？ - 吾爱随笔录

深度神经网络中的senones是什么？

机器算法验证神经网络深度学习术语自然语言隐马尔可夫模型

2022-03-03 02:24:40

我正在阅读这篇论文：Skype 翻译器，他们使用 CD-DNN-HMM（具有隐马尔可夫模型的上下文相关深度神经网络）。我可以理解项目的想法和他们设计的架构，但我不明白senones是什么。我一直在寻找定义，但我没有找到任何东西

— 我们提出了一种新颖的上下文相关 (CD) 模型，用于大词汇量语音识别 (LVSR)，该模型利用了在使用深度信念网络进行电话识别方面的最新进展。我们描述了一种预训练的深度神经网络隐马尔可夫模型 (DNN-HMM) 混合架构，该架构训练 DNN 以产生对Senones（并列三音素状态）的分布作为其输出

如果您能给我一个解释，我将不胜感激。

编辑：

我在这篇论文中找到了这个定义：

我们建议用马尔可夫状态对子语音事件进行建模，并将语音隐藏马尔可夫模型中的状态视为我们的基本子语音单元——senone。词模型是依赖于状态的senones的串联，并且senones可以在不同的词模型之间共享。

我猜它们在第一篇论文的架构的隐马尔可夫模型部分中使用了。它们是 HMM 的状态吗？DNN 的输出？

3个回答

“Senones”是我在 1992 年命名的。请参阅我的 ICASSP 1992 论文[1]。它只是一组共享马尔可夫状态的花哨名称，代表类似的声学事件。它来自与 IBM fenones 的对比，其中“f”表示“框架”，而我的“s”表示“状态”。

最初的想法来自我 1991 年的 Eurospeech（现在称为 Interspeech）的工作，我在马尔可夫状态上使用自上而下的聚类。你可以在这里找到我 1991 年的 CMU 技术报告：https ://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

1992 年，我决定将其移至树聚类，这样人们也可以对看不见的 cd 手机进行建模。

[1] 黄美玉和黄学东。“带有马尔可夫状态的子语音建模-Senone。” 在 [Proceedings] ICASSP-92：1992 年 IEEE 声学、语音和信号处理国际会议，第一卷。1，第 33-36 页。IEEE，1992。链接：https ://ieeexplore.ieee.org/document/225979

这是我终于明白的：

在此架构中，DNN 用于将噪声转换为音素。

在语音学和语言学中，phone这个词可以指任何被认为是物理事件的语音或手势，而不考虑它在语言音系中的位置。

DNN 的最后一层由所有可能的音素组成，每个音素有一个输出神经元。这些神经元的激活是输入噪声对应于该电话的概率。

这些激活的组合是隐马尔可夫模型的输入，并建立了 HMM 的 senones，它通过字典获得候选文本列表。

senones 是 HMM 的状态，在下图中，senones 将是 x1 x2 和 x3。

如果我说错了，请纠正我，希望它有帮助！

在语音识别中，我们经常在对某个电话进行建模时包含一些有关相邻电话的上下文。这意味着我们的系统不仅知道 , 等的电话号码A，B而且还有一个E-then-A,O-then-B等的概念X-then-A。

这些与上下文相关的单位在文学中被称为senones ，这当然是一个虚构的词。

对于语音识别系统，如果使用 DNN/HMM 混合方法进行声学建模，这些 Senones 通常等于声学模型的 HMM 状态，这可以通过神经网络进行预测。

Senones一词是由Janus 语音识别工具包的开发人员创造的。随后，董宇和李登将其用于他们的 ASR 书。那是在神经网络用于声学建模之前的时间。因此，该术语令人困惑。

其它你可能感兴趣的问题

上一篇如何识别卷积神经网络中的过拟合？下一篇协调提升回归树 (BRT)、广义提升模型 (GBM) 和梯度提升机 (GBM)