人工智能 - 如果梯度消失不是 ResNet 解决的问题，那么 ResNet 成功背后的解释是什么？ - 吾爱随笔录

我经常在这里看到博客文章或问题，都是从 ResNets 解决梯度消失问题的前提开始的。

2015 年的原始论文在第 4.1 节中包含以下段落：

我们认为这种优化困难不太可能是由梯度消失引起的。这些普通网络使用 BN 进行训练，确保前向传播的信号具有非零方差。我们还验证了反向传播的梯度在 BN 中表现出健康的规范。所以前向和后向信号都不会消失。事实上，34 层的普通网络仍然能够达到有竞争力的精度，这表明求解器在一定程度上起作用。

那么从那以后发生了什么？我觉得要么 ResNets 解决了梯度消失问题成为了一种误解（因为它确实感觉像是一个人们会欣然接受并继续传播的合理解释），或者一些论文已经证明确实如此。

我从最初的知识开始，即学习卷积块的残差映射比学习整个映射“更容易”。所以我的问题是：为什么它“更容易”？以及为什么“普通网络”做得这么好，但却难以缩小与 ResNet 的性能差距。假设如果普通网络已经学习了相当好的映射，那么它剩下的要学习缩小差距的就是“残差”。但它就是做不到。