逐步特征选择的交叉验证过度乐观
正如@KarlOveHufthammer 已经解释的那样,对(逐步)特征选择使用交叉验证意味着交叉验证是模型训练的一部分。更一般地说,这适用于各种数据驱动的特征选择、模型比较或优化过程。
是的,过度拟合的问题对于迭代训练程序(例如前向选择)更为明显。
(而且我认为他的意思是逐步特征选择通常不是一个好主意 - 恕我直言,最好使用选择特征的正则化,例如 LASSO)
迭代/重复k-折叠交叉验证违背了它的目的?
迭代又名重复交叉验证涵盖了建模测试计算中的特定方差来源:由于训练数据组成的微小变化导致的预测不稳定性,即对模型不稳定性的特定观点。如果您想从手头的特定数据集(针对特定应用程序)构建预测模型,这是非常有用的信息。您可以通过重复/迭代交叉验证来衡量并成功减少这种差异(同样适用于自举)。
至少对于分类器验证结果而言,另一个实际上非常重要的方差来源是由于有限数量的测试用例引起的方差。重复交叉验证不会改变独立测试用例的实际数量,因此由此引起的方差也不会受到重复的影响。在小样本量的情况下,特别是在品质因数是受高方差的测试案例(整体准确性、敏感性、特异性、预测值等)的比例的情况下,第二个方差来源可能是不确定性的主要因素。
这种多次运行方法确实会生成性能值分布,这对于比较不同的方法很有用
这里要小心:CV 不涵盖训练集大小之间的差异ntrain 从基础总体中新鲜提取,仅涵盖交换少数案例的方差(略微干扰训练数据)。因此,您也许可以针对手头的数据集比较不同的方法,但严格来说,您不能将该结论扩展到某个大小的数据集n.
因此,无论您的重点是从手头的数据集中解决应用程序问题(使用任何方法),还是您感兴趣的是方法的属性或基础人群,并且您不关心特定数据,这里都有很大的不同设置,因为它只是一个例子。
在Bengio, Y. 和 Grandvalet, Y.中,从 Bengio 的角度来看,这种差异是被交叉验证低估的方差部分(他们的重点是方法,因此他们需要分离数据集之间的方差)。没有无偏估计机器学习研究的 K 折交叉验证期刊的方差,2004, 5, 1089-1105。