数据挖掘 - 堆叠 LSTM 层 - 吾爱随笔录

堆叠 LSTM 层

数据挖掘神经网络深度学习 rnn 自习堆叠的lstm

2022-02-21 11:44:26

有人可以告诉我那些堆叠的 LSTM 层之间的区别吗？

在这个问题中给出了第一张图片，在这篇文章中给出了第二张图片。到目前为止，我学到的关于堆叠 LSTM 层的知识是基于第二张图像。当您构建 LSTM 层时，其中一层的输出（即 $h^{1}_{l}, l=..., t-1, t, t+1...$ ) 成为其他人的输入，称为堆叠。在堆叠 LSTM 中，每个 LSTM 层输出一个向量序列，这些向量将用作后续 LSTM 层的输入。然而，在第一幅图像中，输入变量再次被馈送到第二层。有人可以告诉我像第一张图片中给出的那样堆叠 LSTM 层是否有问题？

1个回答

您是正确的，“堆叠 LSTM”意味着像在您的第二张图像中那样将图层放在一个彼此的顶部。

第一张图是一个“双向 LSTM ”（BiLSTM），我们可以从两边分析一个系列中的一个点（例如一个句子中的一个词）。我们关心这一点的背景。

我知道的最常见的例子是在 NLP 中。在这里，我们想知道一个词在间隙中的表示，它是如何在其他词之间找到的。如果我们有整个句子，我们可以查看单词之前的单词和单词之后的单词。在这种情况下，我们可以使用双向 LSTM 来处理相反方向的序列，如您的第一张图所示。

让我们玩一个游戏，假设您需要猜测这段文本片段中缺少的单词：

我需要审查一个__________ ...

会是什么呢？“文章”、“ iPad ”、“航拍图”？

这是解决方案：

我需要审查一篇文章，...

要做到这一点非常困难——也许是不可能的！好吧，如果您对此有一定的了解，也许不会。我给你这个片段的两面怎么样：

我需要为明天的报纸复习________。

BiLSTM 将从两边输入句子，从而让它看到更多的上下文来理解每个单词。

看看这篇文章，最终得到了双向网络。这是一个与您类似的问题，有一些不错的答案。

在时间序列数据中，例如来自物联网设备或股票市场的设备读数，使用这种双向模型是没有意义的，因为我们会违反信息的临时流动，即我们不能使用来自未来的信息来帮助预测现在。这在文本分析、语音记录或对子网流量的网络分析中不是问题。

其它你可能感兴趣的问题

上一篇分类变量的转换（二进制与数值）下一篇如何检测数据的重大变化？