数据挖掘 - 神经网络中反向 dropout 背后的直观推理 - 吾爱随笔录

我正在学习 Coursera 上的 deeplearning.ai 课程，并试图了解神经网络中反向 dropout 背后的直观推理。根据讲座，我的理解如下：假设我们决定 $0.5$ 从第一个隐藏层开始丢弃任何特定节点的概率。我们还假设我们现在正在使用没有偏差的线性激活。

第二个隐藏层中的激活将是第一个隐藏层中激活的线性函数，如果 dropout 概率为 $0.5$ ，第二个隐藏层中任何节点激活的期望值是“实际”幅度的一半（“实际”幅度，我指的是完整（无丢失）神经网络中节点激活的幅度） .

同样，由于第二个隐藏层中的节点有 $0.5$ 被丢弃的概率，第三隐藏层激活的预期幅度将是 $0.5\times 0.5$ 的“实际”大小，等等。这种影响通过层一直传递到输出层，预期幅度下降了 1 倍 $0.5$ 在每一层。

因此最终输出激活值，因此 $\hat y$ 将被严重低估，损失将被高估。因此，我们需要在执行前向传播步骤之前扩大每一层的激活值。

这是正确的还是我错过了什么或完全错了？此外，是否有任何参考文献对扩大 dropout 的需要给出严格的数学解释，以及为什么 dropout 具有正则化效果？

谢谢！