数据挖掘 - LSTM 多对一架构中的输出计算 - 吾爱随笔录

我是循环神经网络的新手，但我想用 LSTM 训练我的数据，但我很难理解 LSTM 多对一架构。假设我的数据量很大，time_step x num_features我2 x 2必须使用多对一 LSTM 架构，因为我想做分类。因此，在最后一个 time_step 中，我必须添加包含 sigmoid 激活函数的密集 (a) 来预测 0 或 1 的序列类。

我的问题是，

当我计算 a 时，我需要包括所有隐藏状态（h1 和 h2）还是只包括最后一个隐藏状态 h2？
如果我只包括 h2，我如何计算损失函数（交叉熵）wrt h1 的导数？

强烈建议推导 h1。谢谢：）