如何对抗 CNN 前传中爆炸性的数字?
人工智能
机器学习
卷积神经网络
雷路
2021-11-06 20:17:29
1个回答
防止爆炸的前向和后向传播的最有效方法是将权重保持在一个小范围内。实现这一点的主要方式是通过它们的初始化。
例如在He 初始化的情况下,作者表明(给定一些假设)最后一层输出的方差网络是:
在哪里和是层的连接数和权重. 为了防止输出爆炸,上述产品不应成倍地放大其输入。为了做到这一点,作者选择初始化权重,以便:
现在这有助于防止输出爆炸。然后他们去证明相同的策略有助于防止梯度爆炸。
另一个类似的策略是所谓的Glorot(或 Xavier)初始化。这些技术在帮助模型收敛方面非常有效!
