LSTM 多对一架构中的输出计算

数据挖掘 深度学习 lstm
2022-03-04 01:25:34

我是循环神经网络的新手,但我想用 LSTM 训练我的数据,但我很难理解 LSTM 多对一架构。假设我的数据量很大,time_step x num_features2 x 2必须使用多对一 LSTM 架构,因为我想做分类。因此,在最后一个 time_step 中,我必须添加包含 sigmoid 激活函数的密集 (a) 来预测 0 或 1 的序列类。

我的问题是,

  1. 当我计算 a 时,我需要包括所有隐藏状态(h1 和 h2)还是只包括最后一个隐藏状态 h2?
  2. 如果我只包括 h2,我如何计算损失函数(交叉熵)wrt h1 的导数?

强烈建议推导 h1。谢谢 :)

1个回答

训练时,会分批提供一组训练样例。在每批结束时,更新所有层的权重(密集和 LSTM)。

https://adventuresinmachinelearning.com/keras-lstm-tutorial/