深度残差网络应该被视为网络的集合吗?

人工智能 神经网络 机器学习 深度学习 深度神经网络 残差网络
2021-10-28 20:56:48

问题是关于深度残差网络 ( ResNets ) 的架构。“Large Scale Visual Recognition Challenge 2015”(ILSVRC2015)所有五个主要赛道中获得第一名的模型:

这项工作在以下文章中进行了描述:

用于图像识别的深度残差学习(2015,PDF)


微软研究团队(ResNets 的开发者:Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun)在他们的文章中:

深度残差网络中的身份映射(2016)

声明深度起着关键作用:

我们通过一个简单但基本的概念获得这些结果——更深入。这些结果证明了突破深度极限的潜力。

在他们的介绍中也强调了这一点(更深入 - 更好):

- “更深的模型不应该有更高的训练误差。”
- “更深的 ResNet 具有更低的训练误差,也更低的测试误差。”
- “更深的 ResNet 有更低的错误。”
- “所有人都从更深层次的功能中获益更多——累积收益!”
- “越深越好。”

这是34层残差的结构(供参考): 在此处输入图像描述


但最近我发现了一种理论,它引入了对残差网络的一种新颖解释,表明它们是指数系综:

残差网络是相对浅层网络的指数集合(2016)

Deep Resnet 被描述为许多浅层网络,其输出汇集在不同的深度。文章里有图。我附上解释:

在此处输入图像描述残差网络通常显示为 (a),它是等式 (1) 的自然表示。当我们将此公式扩展到等式(6)时,我们获得了 3 块残差网络(b)的分解视图。从这个角度来看,很明显,残差网络有 O(2^n) 个连接输入和输出的隐式路径,并且添加一个块会使路径数量翻倍。

在文章的结论中指出:

使残差网络强大的不是深度,而是集成残差网络推动了网络多样性的极限,而不是网络深度。我们提出的未分解视图和病变研究表明,残差网络是指数级许多网络的隐式集合。如果与网络的整体深度相比,大多数贡献梯度的路径都非常短,那么仅增加深度不能成为残差网络的关键特征。我们现在相信多重性,即网络在路径数量方面的可表达性,起着关键作用

但这只是一个最近的理论,可以被证实或反驳。有时会发生一些理论被驳斥,文章被撤回的情况。


我们到底应该将深度 ResNets 视为一个整体吗?集成深度使残差网络如此强大?是不是连开发者自己都不太清楚他们自己的模型代表什么,其中的关键概念是什么?

2个回答

想象一个精灵给了你三个愿望。因为您是一位雄心勃勃的深度学习研究人员,您的第一个愿望是为 Image Net 提供 1000 层 NN 的完美解决方案,该解决方案会立即出现在您的笔记本电脑上。

现在,精灵诱导的解决方案并没有给你任何直觉,它可能被解释为一个整体,但你真的相信你需要 1000 层抽象来区分猫和狗吗?正如“合奏论文”的作者自己提到的那样,这对于生物系统来说绝对不是真的。

当然,您可以将您的第二个愿望浪费在将解决方案分解为网络集合上,我很确定精灵能够满足您的要求。原因是深度网络的部分力量总是来自于集成效应。

因此,训练深度网络的两个非常成功的技巧,dropout 和残差网络,立即被解释为隐式集成也就不足为奇了。因此,“它不是深度,而是整体”让我觉得这是一种错误的二分法。你真的只会说,如果你真的相信你需要数百或数千个抽象级别来对图像进行人类准确的分类。

我建议你把最后的愿望用在别的东西上,也许是 pinacolada。

许多非线性的随机残差网络(例如 tanh)生活在混沌的边缘,因为两个输入向量的余弦距离将以多项式速率收敛到一个固定点,而不是像普通 tanh 网络那样以指数速率收敛。因此,一个典型的残差网络会随着深度慢慢地穿过稳定-混沌边界,在这个边界上徘徊很多层。基本上它不会“很快”“忘记”输入空间的几何形状。因此,即使我们使它们变得相当深,它们在普通网络中也能更好地工作。

有关残差网络中信息传播的更多信息 - Mean Field Residual Networks: On the Edge of Chaos