语音识别的隐马尔可夫模型。HMM 状态数

信息处理 语音识别
2022-01-18 08:29:17

这是由于上一个问题Hidden Markov Models - Distinct Observation Symbols和@pichenettes 的后续回答而想到的一个问题。

语音识别的一种方法是使用隐马尔可夫模型 (HMM) 来识别语音中的模式。离散 HMM 模型和连续 HMM 模型都已使用,但连续 HMM 方法似乎产生更好的结果。

在连续方法中,HMM 模型的“输入”是由处理后的语音帧构成的一系列向量。因此,在一定时间长度的块中处理语音会产生一些固定维度的向量,比如 N,N 的大小与帧长度直接相关。

我的问题是这样的:

帧长度(或者向量的维度,N)和导致用于识别的 HMM 模型的状态数之间是否存在关系?

预测语音所需的 HMM 模型的数量与 N 的大小之间是否存在关系?

1个回答

帧的特征向量 N 的维度取决于频率范围和帧中的频点数。例如,对于 16khz 音频信号,通常采用从 40 个倒谱值创建的 39 个特征向量。对于 8khz,有 20 个倒谱值就足够了。

特征尺寸不等于框架长度。只要您及时捕捉到声音变化,帧长度可能会相当随意。帧长由语音信号变化的速度决定。有 10ms 的帧长度就足够了,尽管 20ms 和 5ms 的效果几乎一样好。如果您有 30 毫秒的帧,您将遇到问题,因为某些语音声音变化得更快。以激动的 r 为例。

不同 HMM 模型的数量(例如绑定电话检测器)取决于语音信号的多样性,取决于那里不同声音(时间音频模式)的数量。理想情况下,每种不同的声音都必须使用其自己的 HMM 模型更好地建模。状态的数量取决于训练数据库的大小和数据库的词汇量,而不是特征提取参数。您想要识别的单词越多,您需要的 HMM 模型就越多。

特征向量大小和帧长度与 HMM 模型中的状态数之间没有直接关系。