是否存在多个深度下降?

机器算法验证 神经网络 梯度下降 偏差-方差-权衡
2022-03-12 20:35:38

据我所知,双深下降现象仍未得到很好的理解,但有几位作者报告了他们所说的:

  • 模型方面的双重下降(随着模型变大而观察到“双重下降”)这在抽象中被框定为

    偏差-方差权衡意味着模型应该平衡欠拟合和过拟合:足够丰富以表达数据中的底层结构,足够简单以避免拟合虚假模式。然而,在现代实践中,非常丰富的模型(例如神经网络)被训练以精确拟合(即插值)数据。传统上,这样的模型会被认为是过拟合的,但它们通常在测试数据上获得高精度。这种明显的矛盾引发了对机器学习的数学基础及其与从业者的相关性的质疑。

  • 样本非单调性(我们添加数据时的“双下降” )。

  • 历元双重下降(在较长的训练时间内观察到“双重下降”

也有研究表明,这些经验风险的双重下降可以解释为(至少对于 MSE 和交叉熵损失),方差特别是单峰的

这种类型的非单调现象是否曾被报道或正式研究过两次以上下降?

1个回答

我发现了两件最近的作品似乎很相关——

三重下降和两种过拟合:它们出现在哪里以及为什么出现?

声称有两个(采样方式)峰值:一个当输入数量 N 等于输入维度 D 时,一个当 N 等于参数数量 P 时。对于线性模型,D=P,所以只有一个峰值观测到的。对于高度非线性的深度模型,N=D 峰值不那么明显(并且可能以前没有观察到)。作者提出了两个峰的理论依据和经验观察。

在此处输入图像描述

关于最小范数插值的多次下降和核的受限下等距

在核“无脊”回归的设置中,他们声称随着输入数据的维数增加(具有固定 N),从理论上和经验证据表明,在每个整数根处都应该有一个峰值D=Nk的样本量。

在此处输入图像描述

x 轴:log D,y 轴:最小范数插值的方差。垂直线表示理论上预测的峰值。