也许。但 RNN 不是。
变形金刚学习“伪时间”关系;它们缺乏 RNN 所具有的真正循环梯度,因此提取了根本不同的特征。例如,本文表明标准转换器在强化学习设置中难以优化,尤其是在内存密集型环境中。然而,他们最终设计了一个超越 LSTM 的变体。
哪里还需要 RNN?
长记忆任务。很长的记忆。IndRNN显示出能够记住 5000 个时间步长的能力,而 LSTM 几乎无法管理 1000个。Transformer的时间复杂度是二次的,而 RNN 是线性的,这意味着即使是 5000 个时间步长的单次迭代也能顺利处理。如果这还不够,最近的Legendre 内存单元已经展示了高达512,000,000 个时间步长的内存;我不确定世界上顶级的超级计算机能否将生成的 1E18 张量放入内存中。
除了强化学习之外,信号应用也需要内存——例如语音合成、视频合成、癫痫分类。虽然 CNN 在这些任务上取得了很大的成功,但许多都利用了插入到后面层的 RNN;CNN 学习空间特征,RNN 学习时间/循环。一篇令人印象深刻的 2019 年论文网络设法从仅5 秒的样本中克隆出说话者的声音,并且它使用了 CNNs + LSTMs。
内存与功能质量:
一个不保证另一个;“质量”是指给定任务的信息效用。例如,对于 50 个单词的句子,模型 A 的分类可能优于模型 B,但在 100 个单词时会显着失败,而 B 不会有任何问题。这种确切的现象在最近的双稳态循环细胞论文中得到了说明,其中细胞对较长的序列表现出更好的记忆,但在较短的序列上却被 LSTM 超越。直觉是,LSTM 的四门网络允许更好地控制信息路由,从而更丰富的特征提取。
LSTM 的未来?
我最可能的赌注是,某种形式的增强——比如双稳态循环单元,可能需要注意和循环归一化(例如LayerNorm或Recurrent BatchNorm)。BRC 的设计基于控制理论,LMU 也是如此;这样的架构可以自我规范化,还有很大的创新空间。最终,RNN 不能被非循环架构“取代”,因此在一些需要明确循环特征的任务上表现出色。
循环变压器
如果我们不能消除重复,我们就不能以某种方式将它与变形金刚结合起来吗?是的:通用变形金刚。不仅存在重复,而且支持可变输入序列,就像在 RNN 中一样。作者甚至认为 UT 是图灵完备的。这是否属实我还没有验证,但即使是这样,也不能保证完全利用这种能力的实际能力。
奖励:它有助于可视化 RNN 以更好地理解和调试它们;你可以使用我的一个包See RNN (包括漂亮的图片)查看它们的权重、梯度和激活。
2020 年 6 月 29 日更新:新论文重新设计了变换器,使其在时间维度上运行,具有线性、O(N)、复杂性:变换器是 RNN。不过请注意标题;来自第 3.4 节:“我们考虑时间而不是深度的重复”。所以它们是一种RNN,但仍然不同于“传统”的。我还没有读过它,似乎很有希望;这里有一个很好的视频解释。