Kaldi 和 DeepSpeech 语音识别系统在他们的方法上有什么区别?

人工智能 机器学习 卷积神经网络 长短期记忆 深度神经网络 语音识别
2021-11-10 11:38:08

我想知道 Kaldi 和 DeepSpeech 语音识别系统在算法上有何不同?对于时间上的连续语音,哪一个更准确?

1个回答

他们都使用端到端的方法进行语音识别。但是,由于 DeepSpeech 中的代码复杂性,您无法针对您的工作调整模型。Kaldi 可以以不同的方式进行配置,您可以访问模型的详细信息,它确实是一个模块化工具。我认为 Kaldi 在学术和商业上都可能是一个更好的工具。但是,Deepspeech 是一个黑盒,如果您的工作接近 DeepSpeech 的工作,它可能是一个合适的工具。

此外,如果您使用的语言没有足够的数据进行学习,您可以使用十几种工具(例如字形到音素)来建立数据集以开始学习过程。此外,您可以从其他不依赖于要学习的大数据的 Kaldi 模型开始工作。但是,DeepSpeech 需要数小时的样本,这对于每种语言的每个人来说都不是通用资产。

此外,您可以在这篇中型文章中了解更多关于语音处理的传统技术与现代技术(深度学习)的信息