在简单的线性回归设置中,通常会讨论每个参数的最小观察次数(表征自由度)。并且很容易看出,对于多元回归,特征和参数之间存在一一对应的关系。所以,我们可以直接比较观察的数量和参数的数量。
然而,例如VGG 模型有 138M 参数,并在 1.2M 图像上进行训练,观察/参数的比率约为 1/100。显然,这里不遵循 10/1 到 30/1 之间的任何经验法则。
我对这个问题的理解是,大部分参数都在全连接层中,它们共享每个图像的所有像素的信息,所以观察值和参数之间没有“1对1”的对应关系?
在简单的线性回归设置中,通常会讨论每个参数的最小观察次数(表征自由度)。并且很容易看出,对于多元回归,特征和参数之间存在一一对应的关系。所以,我们可以直接比较观察的数量和参数的数量。
然而,例如VGG 模型有 138M 参数,并在 1.2M 图像上进行训练,观察/参数的比率约为 1/100。显然,这里不遵循 10/1 到 30/1 之间的任何经验法则。
我对这个问题的理解是,大部分参数都在全连接层中,它们共享每个图像的所有像素的信息,所以观察值和参数之间没有“1对1”的对应关系?
在经典的机器学习(即统计学习理论)设置中,参数的数量通常通过 Vapnik-Chervonenkis (VC) 维度输入,而观察数量则通过 PAC 界输入。非常粗略地说,这表示对于分类问题,训练集和测试集之间 0-1 损失的最坏情况差异是的数量级,其中个观察值和是 VC 维度。通常,VC 维度的参数数量会增加(具体取决于模型类)。这个结果可以推广到二进制分类设置之外。对于神经网络,谷歌学者的快速搜索给出了神经网络的大小无关样本复杂度。
最近的结果支持这样一种观点,即随着参数数量超过完美(过)拟合的阈值,测试误差再次降低,因为具有更多参数的模型更具表现力并且能够使用更平滑的函数拟合数据。这可能就是您的示例中发生的情况。参见例如通过分析学习理论协调现代机器学习和偏差-方差权衡或机器学习中的泛化
所以基本上答案是正则化。对于 NN,这是停止训练(即初始化接近零的权重并在验证误差达到最小值时停止,在训练误差达到最小值之前)、退出(随机禁用网络的部分)和权重正则化 (l2)。
即使在线性情况下,套索(l1 正则化)也已用于 n<
对于岭回归(l2 正则化),您有有效自由度的概念 正则化回归的有效自由度
虽然你说得对,大部分参数都在全连接层,并且池化等降低了有效输入维度,但全连接层中的参数数量仍然是一个重要的量,因为它调节非线性。(参见一维多项式回归)