LSTM 架构的一些例子是什么?

人工智能 神经网络 循环神经网络 长短期记忆
2021-11-16 07:44:13

我最近一直在做一些关于构建各种神经网络的课堂作业。对于卷积网络,有几种众所周知的架构,例如 LeNet、VGG 等。在构建新的 CNN 时,这些“经典”模型经常被用作起点。

RNN/LSTM 网络有类似的例子吗?到目前为止,我发现的只是解释循环神经元、LSTM 层和它们背后的数学的文章和幻灯片,但没有整个多层网络架构的众所周知的例子,这与似乎有很多的 CNN 不同。

1个回答

在论文中,LSTM: A Search Space Odyssey (2017),由 Klaus Greff 等人撰写,比较了三个代表性任务(语音识别手写识别和弦音乐建模)上的八个 LSTM 变体。

比较的变体是

  1. Vanilla LSTM具有三个门(输入、遗忘、输出)、块输入、单个单元、输出激活函数和窥视孔连接(从单元到门的连接)。块的输出循环连接回块输入和所有的门。普通LSTM使用梯度下降和随时间反向传播(BPTT) 进行训练。原始LSTM(不是普通 LSTM)不包含,例如,忘记门或窥孔连接(但单元具有恒定的错误轮播,恒定的权重1)。

  2. 基于解耦扩展卡尔曼滤波 (DEKF-LSTM)训练的 LSTM ,这使得 LSTM 能够以高计算复杂度为代价在一些病理情况下进行训练。

  3. Vanilla LSTM 使用基于进化的方法(称为evolino而不是 BPTT 进行训练。

  4. LSTM 块架构随着多目标进化算法的发展而演变,从而最大限度地适应上下文敏感的语法

  5. 用于大规模声学建模的 LSTM 架构,它引入了一个线性投影层,该层在循环和前向连接之前向下投影 LSTM 层的输出,以减少具有许多块的 LSTM 网络的参数数量。

  6. 一种LSTM 架构,具有用于门激活函数斜率的可训练缩放参数,可提高 LSTM 在离线手写识别数据集上的性能。

  7. Dynamic Cortex Memory,由单个块的门之间的循环连接组成的 LSTM,而不是不同块之间的循环连接,提高了 LSTM 的收敛速度。

  8. 门控循环单元(GRU) ,它通过将输入和遗忘门组合成一个更新门来简化 LSTM 的架构

还有其他相关的神经网络架构,例如神经图灵机(NTM)可微分神经计算机(DNC)一般来说,有几种使用 LSTM 块的架构,尽管它们不仅仅是递归神经网络。其他例子是神经程序员解释器(NPI)元控制器