LSTM中堆叠lstm与注意机制之间的区别

数据挖掘 神经网络 lstm 深度学习
2022-03-11 05:00:18

LSTM中的堆叠lstm与注意力机制有什么区别?在我看来,两者最后都会产生相同的上下文向量。

编辑:根据@shepan6 的建议,

  • 堆叠式 ltsm 架构和注意力机制的区别
  • 不太确定我是否在这里,似乎两者都使用了能够选择重要特征来构建最终上下文向量的概念。
  • 如果上面的答案是肯定的,我是否可以说两者的目标相同,只是机制不同

谢谢

1个回答

Stacked LSTM 是分层循环神经网络的特殊版本,其中硬连线的记忆和门控单元有助于长期保存状态信息。

在许多作品中都对层次结构和重复进行了探索。

一个早期的例子是神经抽象金字塔,它将循环计算引入了分层卷积神经网络(又名深度学习)。

它通过水平和垂直反馈循环结合了来自越来越大的上下文的部分解释,以迭代地改进解释。它使用反向传播进行训练,以解决多个计算机视觉任务,例如图像去噪、超分辨率和对象检测。循环计算也非常适合在处理图像序列时维护分层状态信息。

http://www.ais.uni-bonn.de/books/LNCS2766.pdf