用一种非常简单的语言,这就是 L2 正则化
=
-没有正则化的损失
-正则化损失
在实现[Ref]时,我们只需将新 penaty 的导数添加到当前的 delta 权重中,
-没有正则化的权重增量
我的想法 - L2 正则化仅通过最后一步实现,即权重受到惩罚。
我的问题是 -
为什么我们要像第一个等式一样将损失添加到总损失中。会,它不会在反向支撑期间施加额外的惩罚(开由于损失增加,每个重量的分量)。我可以理解它是否用于控制台打印目的,但我相信它不是。
我知道我错过了一些非常简单的东西。