我正在阅读有关下降梯度的信息。下降梯度如何知道要调整哪些权重?它是否同时适应所有网络权重?
每个重量都有相关的误差吗?
通常(或至少是梯度下降的基本实现),您为每次迭代应用每个权重的更新规则,使用损失函数相对于该权重的偏导数,如下所示:
在梯度下降算法中,所有权重都在反向传播时更新。权重更新量由它的梯度和学习率决定。