数据挖掘 - 我可以在记录数百万条对话的同时创建一个好的语音识别引擎吗？ - 吾爱随笔录

我可以在记录数百万条对话的同时创建一个好的语音识别引擎吗？

数据挖掘深度学习语音转文本

2022-02-25 21:14:11

我拥有数以百万计的wav文件，其中包含员工和客户之间的录音对话，我正在研究创建一个好的语音识别引擎的可能性。我已经测试了 Google 的 Speech-To-Text，它很棒。是否可以创建类似的东西？（当然，没有人能在质量和数量上击败谷歌所拥有的数据，但能达到多近呢？）。当然，技术限制是什么（比如这种学习所需的硬件）以及实现它需要多长时间？

注意：我是 ML 的初学者，到目前为止，我已经完成了一些二进制和多类分类，我对神经网络有一个想法，但没有做任何工作。答案越简单我越容易理解，谢谢！

1个回答

是的，拥有大量录制的对话非常适合构建语音识别系统。您仍然需要创建训练样本（每个样本将是 Wave 文件的一部分 --> 文本），但您需要的样本数量较少。

高级步骤是：

在原始音频上训练 GAN
在原始文本数据上训练语言模型（它不必来自这些对话，但必须来自同一个域）。例如，如果对话与医学有关，则在医学文本上训练语言模型。
合并这些模型并在标记样本上进行训练

对于第 1 步，Google WaveNet 是一个很好的例子（它最终用于 Text-to-Speech，它也是 Speech-to-Text 中的一个组件）

https://deepmind.com/blog/wavenet-generation-model-raw-audio/

涵盖设计和整体方法的论文：

https://arxiv.org/abs/1711.01567 https://arxiv.org/abs/1803.10132

其它你可能感兴趣的问题

上一篇为什么报告的损失与根据训练数据计算的均方误差不同？下一篇如何识别与分类数据匹配的集群？