人工智能 - 如何对抗 CNN 前传中爆炸性的数字？ - 吾爱随笔录

如何对抗 CNN 前传中爆炸性的数字？

人工智能机器学习卷积神经网络雷路

2021-11-06 20:17:29

以 AlexNet 为例：

在这种情况下，仅使用激活函数 ReLU。由于 ReLU 不能饱和，它反而会爆炸，如下例所示：

假设我有一个权重矩阵[-1,-2,3,4]和输入[ReLU(4), ReLU(5), ReLU(-2), Relu(-3)]。从这些得到的矩阵对于和的输入将具有大量数字，对于和ReLU(4)则为ReLU(5)0 。如果甚至只有几层，数字很快就会爆炸或为零。ReLU(-2)ReLU(-3)

这通常是如何对抗的？你如何保持这些数字接近 0？我知道你可以在每一层的末尾减去平均值，但是对于已经数百万的层，减去平均值仍然会导致数千。

1个回答

防止爆炸的前向和后向传播的最有效方法是将权重保持在一个小范围内。实现这一点的主要方式是通过它们的初始化。

例如在He 初始化的情况下，作者表明（给定一些假设）最后一层输出的方差 $L$ 网络是：

V a r [y_{L}] = V a r [y_{1}] (\prod_{i = 2}^{L} \frac{1}{2} n_{l} V a r [w_{l}])

$Var[y_L] = Var[y_1] \left( \prod_{i=2}^L{\frac{1}{2} \, n_l \, Var[w_l]} \right)$

在哪里 $n_l$ 和 $w_l$ 是层的连接数和权重 $l$ . 为了防止输出爆炸，上述产品不应成倍地放大其输入。为了做到这一点，作者选择初始化权重，以便：

\frac{1}{2} n_{l} V a r [w_{l}] = 1

$\frac{1}{2} \, n_l \, Var[w_l] = 1$

现在这有助于防止输出爆炸。然后他们去证明相同的策略有助于防止梯度爆炸。

另一个类似的策略是所谓的Glorot（或 Xavier）初始化。这些技术在帮助模型收敛方面非常有效！

其它你可能感兴趣的问题

上一篇在训练 DC-GAN 时，可以调整哪些参数以避免生成器或判别器损失为零？下一篇将 CNN 应用于图形的目的和好处是什么？