总结语音或文本哪个更容易或更有效?[DP/RN]

人工智能 神经网络 深度学习 自然语言处理 语音识别 文本摘要
2021-11-12 05:31:29

如果可能,请考虑语音示例或简单的聊天对话中实现难度和准确性之间的关系。

目前,深度学习或其他算法的方向是什么来解决这个问题。

2个回答

总结文本总是比语音“更容易或更高效”,因为语音需要额外的转换为文本的步骤。这并没有告诉您任何有关准确性的信息。

从 2017 年 6 月 1 日发表的一篇文章来看,谷歌的语音识别现在几乎和人类一样准确“根据 Mary Meeker 的年度互联网趋势报告,谷歌的机器学习支持的语音识别——截至 2017 年 5 月——已经实现了95% 的词英语语言的准确率。当前的准确率也恰好是人类准确率的阈值。

如果您需要这种准确性,请查看Google 的 Cloud Speech API网页上甚至还有语音转文本功能。

给定 95% 的语音到文本转换准确度,如果其他条件都相同,那么语音的准确度将比文本低 5%,但通常情况并非如此。人们通常会在文档或电子邮件中写出比他们讲话时更好的文本,除非他们当然是在进行正式演讲或在正式会议上讲话。如果您正在分析典型非正式论坛中的短信、推文或话题,您会发现语法、拼写、词汇和标点符号的质量非常差。您的问题的答案将取决于您的文本的来源。

在另一篇 2017 年 11 月 13 日的文章,为什么 100% Accuracy Is Not Available With Speech Recognition Software Alone中,作者给出了一些原因,尽管对于具有特殊用途的转录软件,为什么总会出现一些错误,原因是:

  • 语音模式和口音 - 存在地区差异,例如波士顿的英语使用者听起来与肯塔基州不同。该软件如何处理含糊不清的言语或当一个人混合他们的话?
  • 语法和标点符号 - 语音识别软件不知道句号、逗号或分号所属的位置
  • 同音异义词和不常见的词——“语音处理软件只能识别经过专门训练可以识别的词和短语。”
  • 环境噪声、重叠语音和扬声器数量

为了解决您关于技术发展方向的最后一个问题...
四天前,Tom Young、Devamanyu Hazarika、Soujanya Poria 和 Erik Cambria 发表了题为“基于深度学习的自然语言处理的最新趋势”的论文,其中给出了一些答案.

从“结论”部分: 借助分布式表示,各种深度模型已成为 NLP 问题的新的最先进的方法。监督学习是最近 NLP 深度学习研究中最流行的实践。然而,在许多现实世界的场景中,我们有未标记的数据,需要先进的无监督或半监督方法。如果某些特定类缺少标记数据或在测试模型时出现新类,则应采用零样本学习等策略。这些学习方案仍处于开发阶段,但我们预计基于深度学习的 NLP 研究将朝着更好地利用未标记数据的方向发展。我们预计这种趋势将随着更多更好的模型设计而继续下去。我们希望看到更多采用强化学习方法的 NLP 应用程序,例如,对话系统。我们还希望看到更多关于多模式学习的研究 [167],因为在现实世界中,语言通常基于(或与)其他信号相关。

最后,我们希望看到更多的深度学习模型,其内部存储器(从数据中学习的自下而上的知识)通过外部存储器(从 KB 继承的自上而下的知识)来丰富。耦合符号和子符号 AI 将是在从 NLP 到自然语言理解的道路上向前迈进的关键。事实上,依靠机器学习,根据过去的经验做出“好的猜测”是好的,因为子符号方法编码相关性,并且它们的决策过程是概率性的。

您可能想参加关于 YouTube Natural Language Processing with Deep Learning的斯坦福在线课程。本课程将让您深入了解如何将不同类型的神经网络用于不同类型的 NLP 任务。

在我看来,您可以使用门控循环单元 (GRU)对文本进行编码和解码。当然,文本会更容易,因为语音数据存储在计算机中,在测试阶段将难以解释。另一种方法是获取最有影响力的单词,然后使用这些单词来形成有关原始文本的句子。

您还可以从查找与文本摘要器相关的出版物开始。例如,Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond将帮助您入门。您可以以此为起点。如果您需要了解有关底层技术的基础知识,那么您可以阅读本文中的参考资料并找到有用的资源来帮助您入门。