我正在学习 Coursera 上的 deeplearning.ai 课程,并试图了解神经网络中反向 dropout 背后的直观推理。根据讲座,我的理解如下:假设我们决定从第一个隐藏层开始丢弃任何特定节点的概率。我们还假设我们现在正在使用没有偏差的线性激活。
第二个隐藏层中的激活将是第一个隐藏层中激活的线性函数,如果 dropout 概率为,第二个隐藏层中任何节点激活的期望值是“实际”幅度的一半(“实际”幅度,我指的是完整(无丢失)神经网络中节点激活的幅度) .
同样,由于第二个隐藏层中的节点有被丢弃的概率,第三隐藏层激活的预期幅度将是的“实际”大小,等等。这种影响通过层一直传递到输出层,预期幅度下降了 1 倍在每一层。
因此最终输出激活值,因此将被严重低估,损失将被高估。因此,我们需要在执行前向传播步骤之前扩大每一层的激活值。
这是正确的还是我错过了什么或完全错了?此外,是否有任何参考文献对扩大 dropout 的需要给出严格的数学解释,以及为什么 dropout 具有正则化效果?
谢谢!