应该如何初始化和正则化偏差?

数据挖掘 神经网络
2021-09-29 01:13:11

我读过几篇关于内核初始化的论文,许多论文提到他们使用内核的 L2 正则化(通常使用λ=0.0001)。

有没有人做一些不同于用常数零初始化偏差而不是正则化它的事情?

内核初始化论文

1个回答

来自斯坦福 CS231N 笔记

初始化偏差。将偏差初始化为零是可能且常见的,因为不对称破坏是由权重中的小随机数提供的。对于 ReLU 非线性,有些人喜欢对所有偏差使用小的常数值,例如 0.01,因为这可以确保所有 ReLU 单元在开始时触发,从而获得并传播一些梯度。然而,尚不清楚这是否提供了一致的改进(事实上,一些结果似乎表明这表现得更差),并且更常见的是简单地使用 0 偏差初始化。

在 LSTM 中,将偏差初始化为 1 是很常见的 - 参见示例