信息处理 - 语音识别：单词与音素 - 吾爱随笔录 - 问答

语音识别：单词与音素

信息处理语音识别语音处理演讲

2022-02-02 15:53:05

可以用单词或音素训练语音识别器。我想他们都有自己的优点和缺点：

使用单词会有较低的错误率，因为可以将音素放在一起构建一个不存在的单词（这种情况在单词训练中是不可能的）
使用单词需要更大的数据库以及更多的空间和处理时间
音素更通用：使用所有音素，您可以构建所有现有单词，但使用数据库中的所有单词，您无法识别该语言中的所有单词

我想知道是否有理由更喜欢一个而不是另一个，或者在某些情况下一个比另一个更好。这两种方法都有实际应用吗？哪个？它们的优缺点是什么（除了我提到的那些，这可能是错误的，所以请随时纠正我）？

1个回答

大多数现代语音识别系统都基于隐马尔可夫模型。这些是需要先前训练的概率模型。所以这里是简单的比较：

通过使用音素，您可以减少可能性的数量（大约 50 种，具体取决于语言），您可以获得大量数据来训练每个音素模型，通过组合多个模型，您可以拥有单词模型。
从一开始就使用单词模型，你需要有数千个模型来训练，而且可能没有足够的数据。

如果您正在开发一个非常简单的识别系统，并且单词集非常有限，例如数字识别，那么也许您可以使用不需要 HMM 的单词模型。

其它你可能感兴趣的问题

上一篇如何使用matlab获得有意义的群延迟图下一篇为什么频域转换在数字图像处理中很重要？