数据挖掘 - 神经网络中的权重衰减 - 吾爱随笔录

我一直在阅读这本书，并正在尝试做练习。

问题是“连接正则化和权重初始化的改进方法”第 3 部分。我们必须使用启发式论证来证明“当权重下降到大约 $1/\sqrt{n},$ 在哪里 $n$ 是网络中权重的总数。”

有关同一问题的更多上下文（第 1 部分和第 2 部分）：

相关的等式似乎是这样的：

C = - \frac{1}{n_{吨}} \sum_{X j} [{是的}_{j} \ln {一个}_{j}^{大号} + (1 - {是的}_{j}) \ln (1 - {一个}_{j}^{大号})] + \frac{λ}{2 n_{吨}} \sum_{w} w^{2} .

$C= -\frac{1}{n_t} \sum_{xj} [y_j \ln{a^L_j}+(1−y_j)\ln{(1−a^L_j)}]+\frac{\lambda}{2n_t}\sum_{w}w^2.$

（这本书似乎使用了 $n$ 符号来表示两种不同的事物。我已经改变了它 $n_t$ 指训练集的大小，和 $n_w$ 指网络中权重的个数）

我觉得跟上个学期有关系 $\frac{\lambda}{2n}\sum_{w}w^2$ , 因为如果我们替换 $w=\frac{1}{\sqrt{n_w}}$ 然后整个术语简化为 $\frac{\lambda}{2n}$ . 这意味着关于权重的偏导数变为 $\frac{\partial C}{\partial w}$ 代替 $\frac{\partial C}{\partial w}+\frac{\lambda}{n}w$ . 这是否足以解释一旦权重出现，权重衰减就会下降？ $\frac{1}{\sqrt{n}}?$