现代机器学习和偏差-方差权衡

机器算法验证 机器学习 插值 偏差-方差-权衡
2022-03-16 22:28:52

我偶然发现了以下论文Reconciling modern machine learning practice and the bias-variance trade-off并且不完全理解他们如何证明他们的论文中描述的双下降风险曲线(见下文)。

在此处输入图像描述

他们在介绍中说:

通过考虑更大的函数类,其中包含更多与数据兼容的候选预测变量,我们能够找到具有更小范数并因此“更简单”的插值函数。因此,增加函数类容量可以提高分类器的性能。

由此我可以理解为什么测试风险会随着功能类容量的变化而降低。

然而,我不明白为什么测试风险会增加到插值点然后再次降低。为什么恰好在插值点处,数据点的数量等于函数参数nN

如果有人可以在这里帮助我,我会很高兴。

1个回答

关于贝尔金双下降法的要点是,在插值阈值处,即精确拟合训练数据的最小模型容量,解决方案的数量非常有限。模型必须“拉伸”以达到容量有限的插值阈值。

当您进一步增加容量时,插值解决方案的空间就会打开,实际上允许优化以达到较低范数的插值解决方案。这些倾向于更好地概括,这就是为什么你会在测试数据上获得第二次下降。