我认为您的问题没有明确的答案。但我认为传统智慧如下:
基本上,随着学习算法的假设空间的增长,算法可以学习到越来越丰富的结构。但与此同时,算法变得更容易过拟合,泛化误差可能会增加。
因此,最终,对于任何给定的数据集,建议使用具有足够能力学习数据真实结构的最小模型。但这是一个非常随意的建议,因为通常“数据的真实结构”是未知的,而且通常甚至候选模型的能力也只是模糊地了解。
对于神经网络,假设空间的大小由参数的数量控制。似乎对于固定数量的参数(或固定数量级),更深入可以让模型捕获更丰富的结构(例如本文)。
这可能部分解释了参数较少的更深层次模型的成功:VGGNet(从 2014 年开始)有 16 层,参数约为 140M,而 ResNet(从 2015 年开始)以 152 层但只有 ~2M 参数击败了它
(另一方面,较小的模型在计算上可能更容易训练——但我认为这本身并不是一个主要因素——因为深度实际上使训练复杂化)
请注意,这种趋势(更多深度,更少参数)主要存在于与视觉相关的任务和卷积网络中,这需要特定领域的解释。所以这里有另一个观点:
卷积层中的每个“神经元”都有一个“感受野”,即影响每个输出的输入的大小和形状。直观地说,每个内核都会捕获附近输入之间的某种关系。小内核(常见且可取)具有较小的感受野,因此它们只能提供有关局部关系的信息。
但是随着你走得更深,每个神经元相对于更早的层的感受野变得更大。因此,深层可以提供具有全局语义意义和抽象细节的特征(关系的关系......对象的关系),同时只使用小内核(它规范了网络学习的关系,并帮助它收敛和泛化)。
因此,深度卷积网络在计算机视觉中的有用性可能部分由图像和视频的空间结构来解释。时间可能会告诉我们,对于不同类型的问题,或者对于非卷积架构,深度实际上并不能很好地发挥作用。