语音识别:单词与音素

信息处理 语音识别 语音处理 演讲
2022-02-02 15:53:05

可以用单词或音素训练语音识别器。我想他们都有自己的优点和缺点:

  • 使用单词会有较低的错误率,因为可以将音素放在一起构建一个不存在的单词(这种情况在单词训练中是不可能的)
  • 使用单词需要更大的数据库以及更多的空间和处理时间
  • 音素更通用:使用所有音素,您可以构建所有现有单词,但使用数据库中的所有单词,您无法识别该语言中的所有单词

我想知道是否有理由更喜欢一个而不是另一个,或者在某些情况下一个比另一个更好。这两种方法都有实际应用吗?哪个?它们的优缺点是什么(除了我提到的那些,这可能是错误的,所以请随时纠正我)?

1个回答

大多数现代语音识别系统都基于隐马尔可夫模型。这些是需要先前训练的概率模型。所以这里是简单的比较:

  • 通过使用音素,您可以减少可能性的数量(大约 50 种,具体取决于语言),您可以获得大量数据来训练每个音素模型,通过组合多个模型,您可以拥有单词模型。

  • 从一开始就使用单词模型,你需要有数千个模型来训练,而且可能没有足够的数据。

如果您正在开发一个非常简单的识别系统,并且单词集非常有限,例如数字识别,那么也许您可以使用不需要 HMM 的单词模型。