隐马尔可夫模型中的向量量化

信息处理 计算机视觉 语音识别
2022-02-21 23:03:51

手势识别语音识别领域(使用HMM 分类器),向量量化中多个 HMM 分类器(每个类别一个)是否共享公共 Codebook(即公共符号集)?

如果不是这样测试/分类阶段如何工作?

测试输入向量属于哪个 Codebook(我们需要它来确定符号,然后将哪个输入 HMM 进行分类)?

一些背景资料:

  1. Action Recognition中最早的工作之一每个 HMM 分类器使用了不同的符号集。
  2. Rabiner的这本语音识别期刊建议使用通用 Codebook(具有不同的 HMM 分类器)来识别大量用户说出的 10 位数字(第 12 页),
1个回答

在矢量量化中,多个 HMM 分类器(每个类别一个)是否共享共同的 Codebook(即共同的符号集)?

是的,例如在大词汇量语音识别中,有一个大约 4000-10000 高斯的大码本,在 20-30k HMM 之间共享

测试输入向量属于哪个 Codebook(我们需要它来确定符号,然后将哪个输入 HMM 进行分类)?

在现代 ASR 系统中,码本定义了一组 GMM 概率分布,而不是离散符号。所以“属于”并没有真正的意义,它更多的是一个概率值。但是在分类过程中,通常会针对在该阶段处于活动状态的所有码本的子集评估测试向量。

基于活动 HMM 和先前历史记录跨测试向量跟踪活动码本。整个 HMM 集被修剪以获得活跃的集。通常每一步大约有 10k 个活动 HMM 和大约 1k 个码本。