我读过几篇关于内核初始化的论文,许多论文提到他们使用内核的 L2 正则化(通常使用)。
有没有人做一些不同于用常数零初始化偏差而不是正则化它的事情?
内核初始化论文
- Mishkin 和 Matas:你所需要的只是一个好的初始化程序
- Xavier Glorot 和 Yoshua Bengio:了解训练深度前馈神经网络的难度
- 他等人:深入研究整流器:在 ImageNet 分类上超越人类水平的表现
我读过几篇关于内核初始化的论文,许多论文提到他们使用内核的 L2 正则化(通常使用)。
有没有人做一些不同于用常数零初始化偏差而不是正则化它的事情?
初始化偏差。将偏差初始化为零是可能且常见的,因为不对称破坏是由权重中的小随机数提供的。对于 ReLU 非线性,有些人喜欢对所有偏差使用小的常数值,例如 0.01,因为这可以确保所有 ReLU 单元在开始时触发,从而获得并传播一些梯度。然而,尚不清楚这是否提供了一致的改进(事实上,一些结果似乎表明这表现得更差),并且更常见的是简单地使用 0 偏差初始化。
在 LSTM 中,将偏差初始化为 1 是很常见的 - 参见示例。