我偶然发现了以下论文Reconciling modern machine learning practice and the bias-variance trade-off并且不完全理解他们如何证明他们的论文中描述的双下降风险曲线(见下文)。
他们在介绍中说:
通过考虑更大的函数类,其中包含更多与数据兼容的候选预测变量,我们能够找到具有更小范数并因此“更简单”的插值函数。因此,增加函数类容量可以提高分类器的性能。
由此我可以理解为什么测试风险会随着功能类容量的变化而降低。
然而,我不明白为什么测试风险会增加到插值点然后再次降低。为什么恰好在插值点处,数据点的数量等于函数参数?
如果有人可以在这里帮助我,我会很高兴。
