使用 HMM-GMM 进行语音识别中的 GMM

数据挖掘 nlp 高斯 马尔可夫隐藏模型 语音转文本
2022-03-02 18:42:59

我正在尝试使用 HMM-GMM 解决/理解 ASR。

在抽象层面上,我确实了解正在发生的事情,但我不了解 GMM 如何融入其中ASR 模型

我的数据有来自单个用户的 5K 小时的语音。我从这篇文章中截取了上面的图片。

我知道什么是 GMM,但我无法理解它。有人可以用一个简单的例子来解释。

1个回答

之前的答案是错误的,所以我删除了它。

这是我在阅读 daniel Jurafsky 和 ​​James H Martin 的语音和语言处理之后的第二次尝试(好书值得阅读)。

与观测/声学相关的 39 个特征被认为来自多元高斯的混合。

为什么混合 MV 高斯?假设每个状态(电话)有一个单一的 MV 高斯是一个强有力的假设,这可能不是真的。

HMM 如何在 ASR 中与 GMM 相结合:考虑一个单变量情况,其中单个倒谱特征(通常为 39)由单个高斯表示,并且 HMM 状态具有生成特定观察的平均值和方差。获得哪个观察是由哪个状态产生的,这是解码问题的一部分。

让我知道这是否正确?