自动转录和自动语音识别有什么区别?

人工智能 自然语言处理 比较 语音合成
2021-10-26 01:48:10

自动转录和自动语音识别有什么区别?他们是一样的吗?

我的以下解释正确吗?

自动转录:它通过查看整个语音输入将语音转换为文本

自动语音识别:它通过逐字查看选择将语音转换为文本

2个回答

他们都是一样的。识别语音有不同的算法,但本质上它们都旨在识别语音输入的内容并将其转换为书面文本。

然后完成自动转录,而更一般的 ASR 的输出通常被传递到进一步处理,例如识别语音中表达的实体或命令。

自动转录是一种自动将音素转换为字素的系统,它更像是音节识别,用于在稳定和现有的语音识别版本的基础上构建另一种语言的语音识别。看这张图更了解:看这张图

有人认为您必须理解,声音与含义不同,计算机需要工具来理解声音,它是语音或音乐或其他形式的声音。所有语音都已映射到国际音标 (IPA)。

并且用很少的计算来组合字素(调用字典),从而理解特定语言的语音。

例如:你已经知道“spoon”或“key”的发音,字素被s和“po-on”分割。

在其他语言(如印度尼西亚语)中,另一位开发人员使用此字素识别系统(转录系统)来构建语音识别,用于单词“meskipun”。

在字形中,'meskipun' 词是:'mehs-key-poon'。

通过简单的计算,我们可以让计算机理解“meskipun”这个词。

只说如果“mesh + key + poon”显示,单词是“meskipun”

meskipun (=althought, 英语)

使用自动转录系统构建语音识别的一个大问题是,每种语言的 IPA 映射都没有 100% 相似。

所以开发者应该使用几个“迁移学习”的语言数据库来使他们的语音识别具有更高的准确率。除了,他决定从头开始构建它。

自动语音识别是一种端到端的语音识别,它设置为理解特定的语音语言,系统中间包含自动转录系统。