权重初始化的目的是防止层激活输出在通过深度神经网络的前向传播过程中爆炸或消失
我真的很难理解深度神经网络(DNN)的权重初始化技术和 Xavier 初始化。
简而言之(也许还有一个例子),DNN 的 Xavier 初始化背后的直觉是什么?我们什么时候应该使用 Xavier 的初始化?
权重初始化的目的是防止层激活输出在通过深度神经网络的前向传播过程中爆炸或消失
我真的很难理解深度神经网络(DNN)的权重初始化技术和 Xavier 初始化。
简而言之(也许还有一个例子),DNN 的 Xavier 初始化背后的直觉是什么?我们什么时候应该使用 Xavier 的初始化?
权重初始化是成功训练深度神经网络的最关键因素之一。对于需要使用 Xavier 初始化来初始化 DNN,deeplearning.ai 的这种解释可能是最好的解释。简而言之,这是它所谈论的内容:
梯度爆炸和消失的问题在 DL 社区中由来已久。将所有权重初始化为零,模型在所有隐藏层中学习相同的特征,初始化随机但大的权重和反向传播的梯度爆炸,初始化随机但小的权重和梯度消失。这个简单的数学观察恰如其分地抓住了直觉:, 同时,. 请注意,这两个数字之间的差异只是但反复倍增,效果却是巨大的!典型的 NN 是一系列涉及权重矩阵和线性/非线性激活函数的函数组合。当剥离到最低限度时,它本质上是一系列矩阵乘法。因此,这些权重矩阵的元素的初始化方式对网络的学习方式起着重要作用。
标准的权重初始化方法出现在这里。当涉及到权重初始化时,它们强化了事实上的经验法则:(1)激活的平均值应该为零,(2)这些激活在所有层上的方差应该是相同的。
注意:上面给出的链接对 Xavier 初始化工作的原因有完整的数学证明,以及相同的交互式可视化。