我拥有数以百万计的wav文件,其中包含员工和客户之间的录音对话,我正在研究创建一个好的语音识别引擎的可能性。我已经测试了 Google 的 Speech-To-Text,它很棒。是否可以创建类似的东西?(当然,没有人能在质量和数量上击败谷歌所拥有的数据,但能达到多近呢?)。当然,技术限制是什么(比如这种学习所需的硬件)以及实现它需要多长时间?
注意:我是 ML 的初学者,到目前为止,我已经完成了一些二进制和多类分类,我对神经网络有一个想法,但没有做任何工作。答案越简单我越容易理解,谢谢!
我拥有数以百万计的wav文件,其中包含员工和客户之间的录音对话,我正在研究创建一个好的语音识别引擎的可能性。我已经测试了 Google 的 Speech-To-Text,它很棒。是否可以创建类似的东西?(当然,没有人能在质量和数量上击败谷歌所拥有的数据,但能达到多近呢?)。当然,技术限制是什么(比如这种学习所需的硬件)以及实现它需要多长时间?
注意:我是 ML 的初学者,到目前为止,我已经完成了一些二进制和多类分类,我对神经网络有一个想法,但没有做任何工作。答案越简单我越容易理解,谢谢!
是的,拥有大量录制的对话非常适合构建语音识别系统。您仍然需要创建训练样本(每个样本将是 Wave 文件的一部分 --> 文本),但您需要的样本数量较少。
高级步骤是:
对于第 1 步,Google WaveNet 是一个很好的例子(它最终用于 Text-to-Speech,它也是 Speech-to-Text 中的一个组件)
https://deepmind.com/blog/wavenet-generation-model-raw-audio/
涵盖设计和整体方法的论文:
https://arxiv.org/abs/1711.01567 https://arxiv.org/abs/1803.10132