交叉验证实施会影响其结果吗?

机器算法验证 机器学习 交叉验证
2022-03-28 18:37:27

如您所知,有两种流行的交叉验证类型,K-fold 和随机子采样(如Wikipedia中所述)。尽管如此,我知道一些研究人员正在撰写和发表论文,其中被描述为 K-fold CV 的东西确实是随机子抽样,所以在实践中你永远不知道你正在阅读的文章中的真正内容。
通常当然差异是不明显的,所以我的问题是——你能想出一个例子,当一种类型的结果与另一种显着不同时?

2个回答

你当然可以仅仅因为你训练不同的例子而得到不同的结果。我非常怀疑是否存在一种算法或问题域,其中两者的结果会以某种可预测的方式有所不同。

通常当然差异是不明显的,所以我的问题是——你能想出一个例子,当一种类型的结果与另一种显着不同时?

我不确定差异是否不明显,并且只有在临时示例中才会明显。交叉验证和引导(子采样)方法都严重依赖于它们的设计参数,这种理解还不完整。一般来说,k-fold 交叉验证中的结果主要取决于折叠的数量,因此您总是可以期待与在子采样中观察到的结果不同的结果。

恰当的例子:假设您有一个具有固定数量参数的真正线性模型。如果您使用 k 折交叉验证(使用给定的固定 k),并让观察次数达到无穷大,则 k 折交叉验证对于模型选择将是渐近不一致的,即,它将识别不正确的模型概率大于 0。这个令人惊讶的结果归功于 Jun Shao, "Linear Model Selection by Cross-Validation", Journal of the American Statistical Association , 88 , 486-494 (1993),但在这方面可以找到更多论文。

一般来说,受人尊敬的统计论文指定交叉验证协议,正是因为结果不是一成不变的。在他们为大型数据集选择大量折叠的情况下,他们会评论并尝试纠正模型选择中的偏差。