我是循环神经网络的新手,但我想用 LSTM 训练我的数据,但我很难理解 LSTM 多对一架构。假设我的数据量很大,time_step x num_features
我2 x 2
必须使用多对一 LSTM 架构,因为我想做分类。因此,在最后一个 time_step 中,我必须添加包含 sigmoid 激活函数的密集 (a) 来预测 0 或 1 的序列类。
我的问题是,
- 当我计算 a 时,我需要包括所有隐藏状态(h1 和 h2)还是只包括最后一个隐藏状态 h2?
- 如果我只包括 h2,我如何计算损失函数(交叉熵)wrt h1 的导数?
强烈建议推导 h1。谢谢 :)