如何理解深度学习模型中每个参数的观察次数?

机器算法验证 深度学习 反向传播 自由程度
2022-04-06 23:44:38

在简单的线性回归设置中,通常会讨论每个参数的最小观察次数(表征自由度)。并且很容易看出,对于多元回归,特征和参数之间存在一一对应的关系。所以,我们可以直接比较观察的数量和参数的数量。

然而,例如VGG 模型有 138M 参数,并在 1.2M 图像上进行训练,观察/参数的比率约为 1/100。显然,这里不遵循 10/1 到 30/1 之间的任何经验法则。

我对这个问题的理解是,大部分参数都在全连接层中,它们共享每个图像的所有像素的信息,所以观察值和参数之间没有“1对1”的对应关系?

3个回答

在经典的机器学习(即统计学习理论)设置中,参数的数量通常通过 Vapnik-Chervonenkis (VC) 维度输入,而观察数量则通过 PAC 界输入。非常粗略地说,这表示对于分类问题,训练集和测试集之间 0-1 损失的最坏情况差异是D/N的数量级,其中N个观察值和D是 VC 维度。通常,VC 维度的参数数量会增加(具体取决于模型类)。这个结果可以推广到二进制分类设置之外。对于神经网络,谷歌学者的快速搜索给出了神经网络的大小无关样本复杂度

最近的结果支持这样一种观点,即随着参数数量超过完美(过)拟合的阈值,测试误差再次降低,因为具有更多参数的模型更具表现力并且能够使用更平滑的函数拟合数据。这可能就是您的示例中发生的情况。参见例如通过分析学习理论协调现代机器学习和偏差-方差权衡或机器学习中的泛化

所以基本上答案是正则化。对于 NN,这是停止训练(即初始化接近零的权重并在验证误差达到最小值时停止,在训练误差达到最小值之前)、退出(随机禁用网络的部分)和权重正则化 (l2)。

即使在线性情况下,套索(l1 正则化)也已用于 n<

对于岭回归(l2 正则化),您有有效自由度的概念 正则化回归的有效自由度

虽然你说得对,大部分参数都在全连接层,并且池化等降低了有效输入维度,但全连接层中的参数数量仍然是一个重要的量,因为它调节非线性。(参见一维多项式回归)

对于任何估计问题,通常需要统计模型的参数是可识别的。观察数量和参数数量之间的一一对应实际上来自于检查信息矩阵是否为奇异值。如果信息矩阵对于所有可能的参数值都是非奇异的,那么从广义上讲,您可以根据观察结果找到模型参数的唯一值。高斯分布的信息矩阵等价于已知协方差的最小二乘拟合,可以写成 ,如果雅可比

I(θ)=JT(θ)Q1J(θ)
J列多于行,即参数多于观察将是奇异的Iθ

但是,如果您遇到的估计问题是参数多于观测值,则通常需要限制参数允许值的空间,这可以通过正则化来完成。所有这些都在这里更详细地描述