在典型的 ANN 反向传播设置中,我们有多个权重,我们尝试通过计算函数相对于权重的梯度来减少损失函数,比如说 w 1、 w 2、 w 3以最终更新它们。
我们计算 ∂Err/∂w 1 , ∂Err/∂w 2 , ∂Err/∂w 3并将每个权重的权重更新为 w i = w i + ∂Err / ∂w i,以便我们朝着损失函数在度量上减小的方向。
我看到的问题是,在损失函数方面,某些权重增量方向可能一直存在冲突。也就是说,当 w 1 单独趋向∂Err/∂w 1 时,Err 可能会减少,但很可能当 w 1与 w 2一起更新时,Err 实际上会增加,也就是说,当我们在方向上一起采取措施时在所有这些权重中,我们实际上可能不会走下 Err。不是这样吗?我错过了什么?