我了解标准神经网络中反向传播的概念以及使用 RNN 随时间反向传播的概念,为什么这会导致早期时间步长的梯度呈指数级变小以及这背后的大部分数学,但我不明白的是为什么这会影响较早的时间步长尤其?既然 RNN 中的参数(权重)都是在时间步之间共享的,为什么更早的时间步受到的影响更大呢?他们不会都受到影响,因为它们都共享相同的优化不良的权重,由于乘积中产生的许多小项,它们永远不会更新? 我觉得我在这里完全误解了一些东西。非常感谢
递归神经网络 (RNN) 梯度消失问题 - 为什么它对早期时间步的影响更大?
数据挖掘
机器学习
深度学习
神经网络
反向传播
rnn
2022-01-24 11:07:14
1个回答
当然,所有权重都是相同的,但是应用于权重的更新对每个时间步都有贡献,而与第一个时间步相关的贡献受梯度消失问题的影响更大。