我正在尝试使用 HMM-GMM 解决/理解 ASR。
在抽象层面上,我确实了解正在发生的事情,但我不了解 GMM 如何融入其中
。
我的数据有来自单个用户的 5K 小时的语音。我从这篇文章中截取了上面的图片。
我知道什么是 GMM,但我无法理解它。有人可以用一个简单的例子来解释。
我正在尝试使用 HMM-GMM 解决/理解 ASR。
在抽象层面上,我确实了解正在发生的事情,但我不了解 GMM 如何融入其中
。
我的数据有来自单个用户的 5K 小时的语音。我从这篇文章中截取了上面的图片。
我知道什么是 GMM,但我无法理解它。有人可以用一个简单的例子来解释。
之前的答案是错误的,所以我删除了它。
这是我在阅读 daniel Jurafsky 和 James H Martin 的语音和语言处理之后的第二次尝试(好书值得阅读)。
与观测/声学相关的 39 个特征被认为来自多元高斯的混合。
为什么混合 MV 高斯?假设每个状态(电话)有一个单一的 MV 高斯是一个强有力的假设,这可能不是真的。
HMM 如何在 ASR 中与 GMM 相结合:考虑一个单变量情况,其中单个倒谱特征(通常为 39)由单个高斯表示,并且 HMM 状态具有生成特定观察的平均值和方差。获得哪个观察是由哪个状态产生的,这是解码问题的一部分。
让我知道这是否正确?