He 等人最近的一篇论文。(用于图像识别的深度残差学习,Microsoft Research,2015)声称它们使用了多达 4096 层(不是神经元!)。
我试图理解这篇论文,但我偶然发现了“残差”这个词。
有人可以给我一个解释/定义在这种情况下剩余意味着什么?
例子
我们明确地将层重新定义为参考层输入的学习残差函数,而不是学习未参考的函数。
[...]
我们不是希望每个堆叠的层直接适合所需的底层映射,而是明确地让这些层适合残差映射。形式上,将所需的底层映射表示为,我们让堆叠的非线性层拟合另一个映射. 原来的映射被重铸成. 我们假设优化残差映射比优化原始的、未引用的映射更容易