假设我有一个 2 层 LSTM 单元,我正在使用这个网络对沿时间轴长度为 10 的输入序列执行回归。
据我了解,当这个网络“展开”时,它将由 20 个 LSTM 单元组成,每层 10 个。因此,第一层对应的 10 个单元接收 t = 1 到 10 的网络输入,而第二层对应的 10 个单元接收 t = 1 到 10 的第一层的输出。换句话说,单元的输出在对应于 t = 1 的第 1 层中,转到 (1) 对应于 t = 2 的第 1 层中的“下一个”单元,以及 (2) 对应于 t = 1 的第 2 层中的单元。
那么当误差被反向传播时,第 1 层的每个单元中不会有两个导数进入吗?如果是这样,如何执行权重更新?是否使用了两个导数的总和或平均值,还是发生了其他事情?