重复交叉验证的缺点是什么?

机器算法验证 交叉验证 偏差-方差-权衡
2022-03-27 14:34:36

交叉验证 (CV) 将数据分成两部分,一部分用于构建模型,另一部分用于测试。

一种常见的做法是重复 CV 以获得对模型性能的更精确估计。例如,不是只做一次 CV,而是随机拆分重复 100 次,然后报告平均性能。

除了增加计算时间之外,这种方法的缺点是什么?

它会增加模型偏差或方差吗?

2个回答

与单个 CV 折叠相比,重复 CV 没有缺点。如果有的话,重复的 CV 应该会降低我们估计的方差。

Arlot & Celisse (2010) A survey of cross-validation procedures for model selection中可以找到关于交叉验证程序的优秀且被高度引用的概述这篇论文确实有点长(毕竟这是一个调查),但即使阅读最后一节“结论:哪个问题的交叉验证方法? ”也是非常有启发性的。它讨论了没有单一的 CV 程序如何普遍更好,但我们应该关注特定的设置(例如变量选择与在两个学习程序中选择最好的)。

关于劣势的问题,我认为需要细化。

与k-fold CV相比的劣势?对于大样本,这是计算时间(如您所述)。对于小样本,重复 k 倍 CV 没有明显的劣势。

与自举相比的缺点?对于小样本,自举可以更好地在模型之间进行选择,因为它会发现重要变量被丢弃的问题。在较大的样本中,由于过度拟合,自举可能会出现问题。本文着眼于自举和重复 10 倍 CV 之间的偏差和方差,并指出与自举相比,重复 10 倍 CV 重采样的低方差让他们感到惊讶。