LSTM的结构差异?

人工智能 神经网络 反向传播 长短期记忆
2021-11-13 22:35:21

我发现了多个关于 LSTM 单元如何运作的描述。见下文 2:

在此处输入图像描述

在此处输入图像描述

这些图像中的每一个都表明隐藏状态的使用方式不同。在上图中,隐藏状态与先前的输出和当前输入一起被添加到遗忘门和输入门。底部图像表明输入和遗忘门仅使用先前的输出和当前输入来计算。它是哪一个?

此外,当当前层的前一个输出被输入时,这是在它被重新整形为最终输出大小并通过 softmax 之前还是之后?

1个回答
  1. LSTM 有不同的变体,在现在的大多数 ML 包中,您可能会看到底部图片中显示的内容。有关更多详细信息、直觉和动机,请参阅本文

  2. 它没有被重塑,也没有 softmax 层。这一切都是在 LSTM之外完成的。