为什么 LSTM 不能讲长话?

人工智能 深度学习 循环神经网络 长短期记忆 应用
2021-11-06 05:00:17

最近有一种趋势是人们使用 LSTM 来写小说。我自己没有尝试过。据我所知,他们可以讲故事,但似乎他们很快就失去了故事的背景。之后,他们开始构建新的但不一定相关的结构。

从长远来看,他们可以构建一个情节吗?

1个回答

长短期记忆(LSTM)是一种循环神经网络,适用于序列建模,即跟踪序列元素之间的统计依赖关系。

LSTM 预测能力仅限于用于训练它的训练数据、归纳偏差(在 LSTM 的情况下,归纳偏差特别是指序列的元素相互依赖的事实)和可用计算资源。然而,讲故事往往假设讲故事的人和听话的人之间存在常识性知识(但 LSTM 完全忽略了这一点),并且需要对语言的真正理解,这被认为是一个AI-complete 问题(简单地说,它是一项非常复杂的任务,可能无法用统计模型完全解决)。

此外,即使 LSTM部分解决了梯度消失问题(并且它们是专门为部分解决这个问题而创建的),它们仍然可能遭受梯度爆炸问题的困扰。此外,尽管 LSTM 和通常的神经网络是通用函数逼近器,但在实践中,函数可能不是连续的,这是在通用逼近定理中做出的假设。