我可以在记录数百万条对话的同时创建一个好的语音识别引擎吗?

数据挖掘 深度学习 语音转文本
2022-02-25 21:14:11

我拥有数以百万计的wav文件,其中包含员工和客户之间的录音对话,我正在研究创建一个好的语音识别引擎的可能性。我已经测试了 Google 的 Speech-To-Text,它很棒。是否可以创建类似的东西?(当然,没有人能在质量和数量上击败谷歌所拥有的数据,但能达到多近呢?)。当然,技术限制是什么(比如这种学习所需的硬件)以及实现它需要多长时间?

注意:我是 ML 的初学者,到目前为止,我已经完成了一些二进制和多类分类,我对神经网络有一个想法,但没有做任何工作。答案越简单我越容易理解,谢谢!

1个回答

是的,拥有大量录制的对话非常适合构建语音识别系统。您仍然需要创建训练样本(每个样本将是 Wave 文件的一部分 --> 文本),但您需要的样本数量较少。

高级步骤是:

  1. 在原始音频上训练 GAN
  2. 在原始文本数据上训练语言模型(它不必来自这些对话,但必须来自同一个域)。例如,如果对话与医学有关,则在医学文本上训练语言模型。
  3. 合并这些模型并在标记样本上进行训练

对于第 1 步,Google WaveNet 是一个很好的例子(它最终用于 Text-to-Speech,它也是 Speech-to-Text 中的一个组件)

https://deepmind.com/blog/wavenet-generation-model-raw-audio/

涵盖设计和整体方法的论文:

https://arxiv.org/abs/1711.01567 https://arxiv.org/abs/1803.10132