据我所知,双深下降现象仍未得到很好的理解,但有几位作者报告了他们所说的:
模型方面的双重下降(随着模型变大而观察到“双重下降”)这在抽象中被框定为
偏差-方差权衡意味着模型应该平衡欠拟合和过拟合:足够丰富以表达数据中的底层结构,足够简单以避免拟合虚假模式。然而,在现代实践中,非常丰富的模型(例如神经网络)被训练以精确拟合(即插值)数据。传统上,这样的模型会被认为是过拟合的,但它们通常在测试数据上获得高精度。这种明显的矛盾引发了对机器学习的数学基础及其与从业者的相关性的质疑。
样本非单调性(我们添加数据时的“双下降” )。
历元双重下降(在较长的训练时间内观察到“双重下降”)
也有研究表明,这些经验风险的双重下降可以解释为(至少对于 MSE 和交叉熵损失),方差特别是单峰的。
这种类型的非单调现象是否曾被报道或正式研究过两次以上的下降?