估计预测误差

机器算法验证 回归 交叉验证 预言
2022-04-10 23:38:12

对于非线性回归问题的未来数据的表征/估计预测误差的任何答案,将不胜感激。在什么条件下,随机选择的 20% 可用数据上的交叉验证误差或简单测试误差有助于表征新数据(预期值或最大值/最小值)的预测误差?我在某处听说交叉验证误差是一个乐观估计,那么预测误差的悲观(但有些严格的上限)是什么?

2个回答

如果您非常仔细地进行了交叉验证(有很多方法会犯错误,从而导致结果过于乐观),那么如果您的新数据与训练数据来自同一人群,那么交叉验证结果应该是正确的. 用技术术语来说,交叉验证应该返回对错误的无偏估计,因此即使测试结果可能与预期不同,它也应该有可能变得更好,也可能变得更糟。

有关交叉验证的良好指南,请参阅Elements of Statistical Learning 的第 7 章。交叉验证中的一个常见错误是确保您在开发模型时所做的任何选择,例如调整参数、决定哪些变量有用,甚至使用什么算法,都需要通过交叉验证进行评估。

但是,关键假设是测试集与训练集来自同一人群。在统计模型的许多实际应用中,被建模的系统可能会随着时间而改变,即使它以微妙的方式发生变化,例如采样方式的变化。任何更改都会降低模型的性能。出于这个原因,与某些系统在现实世界中的表现相比,静态训练集上的交叉验证误差实际上可能是乐观的。细节将完全取决于数据的性质,因此您的问题没有单一的定量答案。

让我补充一下 Bogdanovist 的出色回答