Jordan、Elman 和普通 RNN 的区别

数据挖掘 rnn
2022-02-11 14:36:38

据我所知,Jordan 网络于 1986 年首次提出,作为 RNN 的一种形式,如下图所示:

在此处输入图像描述

实际上,当考虑当前输出是下一次输入的序列数据时,这是有意义的解决方案(如图所示具有一些权重和激活)。然而,在这之后的 1990 年,Elman 网络被提出来反馈隐藏状态而不是这样的输出?

在此处输入图像描述

这种修改的原因或好处是什么?而这两种类型的网络和我们知道的如图所示的普通RNN(在LSTM和GRU之前)有什么区别呢?

在此处输入图像描述

RNN 的图形似乎与它们两者(尤其是 Elman)非常相似,因为我们采用隐藏状态并再次将其作为输入。RNN 与 Elman 和 Jordan 网络有什么区别?两者的用法有什么区别?请注意,我在 LSTM 和 GRU 之前学习了 RNN。他们是无法比较的。

1个回答

您的第二张和第三张图片中的架构是相同的,因为链接I从隐藏单元到 Elman 网络中的上下文单元是不可训练的。它始终等于 1。

在他的论文 [1] 中,Elman 首先提供了 Jordan 的架构,然后介绍了他自己的网络,但没有讨论为什么他的网络更好。

无论如何,这就是我认为它可能是首选的原因。

隐藏层中的神经元学习输入的特征或内部表示。后向连接允许隐藏单元学习对输入的顺序属性进行编码的特征。

在深度网络中,离输入更远的层中的神经元比离输入更近的层中的神经元学习更多的抽象特征。将层的输出反馈到同一层允许在同一抽象级别学习顺序属性。将一个层的输出馈送到不同层的输入会混合抽象级别。

在 Jordan 网络中,整个网络的输出直接影响隐藏层的输入,因此学习的表示在隐藏层和输出层之间进行分割。Elman 的网络允许通过抽象级别更多地分离特征。

Elman 的大部分论文都在试图理解他的神经元已经学会的特征,即使是那些他的网络表现不佳的任务也是如此。我不完全确定,但我猜不同层之间的反向连接会使这种分析更加困难。

  1. Elman, JL (1990),及时发现结构。认知科学,14:179-211。doi:10.1207/s15516709cog1402_1