在训练网络时,梯度会在整个网络中反向传播,更新权重和偏差等参数。
所以最后一层看到前一层提出的特征,并决定,根据他们以损失衡量的表现,给这个增加一点权重,给那个减少一点权重——改变它的输出。
同时,层做同样的事情,也改变了它的参数,这意味着特征层将在下一轮看到与用于计算更新的不完全相同。
但是等等,层也改变它的参数......等等直到第一层。
因此,在下一轮中,第 1 层发生了变化并产生了稍微不同的特征,然后将这些特征提供给也发生了变化的第 2 层,依此类推。当要素到达图层时,他们怎么可能和已经用来优化它的特性有什么共同之处呢?
此外,在实践中,第一层的参数通常比最后一层少得多。在我看来,所有下游层都依赖于那些第一个卷积,并且它们的任何变化都会深刻影响基于它们的所有下游特征。
现在,可以合理地说,“别再想太多了。这些是渐变。如果你迈出足够小的一步,也许真的是非常非常小的一步,特征只会发生非常轻微的变化。成本会下降,这是数学的。 ”
但是,在深度学习中,学习率在第一阶段被尽可能大,正是在特征形成时。
在这些条件下,网络如何学习任何东西?