神经网络中的权重衰减

数据挖掘 机器学习 神经网络 深度学习 正则化
2021-09-23 23:42:05

我一直在阅读这本书,并正在尝试做练习。

问题是“连接正则化和权重初始化的改进方法”第 3 部分。我们必须使用启发式论证来证明“当权重下降到大约1/n,在哪里n是网络中权重的总数。”

有关同一问题的更多上下文(第 1 部分和第 2 部分):

权重衰减和正则化的启发式论证

L2 正则化和非归一化权重初始化的速度衰减证明

相关的等式似乎是这样的:

C=-1nXj[是的jln一个j大号+(1-是的j)ln(1-一个j大号)]+λ2nww2.

(这本书似乎使用了n符号来表示两种不同的事物。我已经改变了它n指训练集的大小,和nw指网络中权重的个数)

我觉得跟上个学期有关系λ2nww2, 因为如果我们替换w=1nw然后整个术语简化为λ2n. 这意味着关于权重的偏导数变为Cw代替Cw+λnw. 这是否足以解释一旦权重出现,权重衰减就会下降?1n?

1个回答

根据这本书,以太大的标准偏差初始化权重的问题是它很可能导致神经元饱和。

但是使用 L2 正则化,当饱和发生时,只有 L2 项会影响梯度,并导致权重衰减。

当权重变得足够小而不会导致饱和时(例如 1/n),另一个术语会影响gradeint。

因此 L2 项的相对影响减小。

(当然,L2 项的绝对影响会随着权重的衰减而降低。)

为什么 1/n?

如果所有的 n 输入神经元为 1,权重的标准差为 σ,隐藏神经元输入的标准差为 nσ.

如果你想 nσ 为 1 以避免饱和, σ 应该 1/n.