数据挖掘 - 使用 HMM-GMM 进行语音识别中的 GMM - 吾爱随笔录

数据挖掘 nlp 高斯马尔可夫隐藏模型语音转文本

2022-03-02 18:42:59

我正在尝试使用 HMM-GMM 解决/理解 ASR。

在抽象层面上，我确实了解正在发生的事情，但我不了解 GMM 如何融入其中。

我的数据有来自单个用户的 5K 小时的语音。我从这篇文章中截取了上面的图片。

我知道什么是 GMM，但我无法理解它。有人可以用一个简单的例子来解释。

1个回答

之前的答案是错误的，所以我删除了它。

这是我在阅读 daniel Jurafsky 和 James H Martin 的语音和语言处理之后的第二次尝试（好书值得阅读）。

与观测/声学相关的 39 个特征被认为来自多元高斯的混合。

为什么混合 MV 高斯？假设每个状态（电话）有一个单一的 MV 高斯是一个强有力的假设，这可能不是真的。

HMM 如何在 ASR 中与 GMM 相结合：考虑一个单变量情况，其中单个倒谱特征（通常为 39）由单个高斯表示，并且 HMM 状态具有生成特定观察的平均值和方差。获得哪个观察是由哪个状态产生的，这是解码问题的一部分。

让我知道这是否正确？

其它你可能感兴趣的问题