机器算法验证 - 交叉验证实施会影响其结果吗？ - 吾爱随笔录

交叉验证实施会影响其结果吗？

机器算法验证机器学习交叉验证

2022-03-28 18:37:27

如您所知，有两种流行的交叉验证类型，K-fold 和随机子采样（如Wikipedia中所述）。尽管如此，我知道一些研究人员正在撰写和发表论文，其中被描述为 K-fold CV 的东西确实是随机子抽样，所以在实践中你永远不知道你正在阅读的文章中的真正内容。
通常当然差异是不明显的，所以我的问题是——你能想出一个例子，当一种类型的结果与另一种显着不同时？

2个回答

你当然可以仅仅因为你训练不同的例子而得到不同的结果。我非常怀疑是否存在一种算法或问题域，其中两者的结果会以某种可预测的方式有所不同。

通常当然差异是不明显的，所以我的问题是——你能想出一个例子，当一种类型的结果与另一种显着不同时？

我不确定差异是否不明显，并且只有在临时示例中才会明显。交叉验证和引导（子采样）方法都严重依赖于它们的设计参数，这种理解还不完整。一般来说，k-fold 交叉验证中的结果主要取决于折叠的数量，因此您总是可以期待与在子采样中观察到的结果不同的结果。

恰当的例子：假设您有一个具有固定数量参数的真正线性模型。如果您使用 k 折交叉验证（使用给定的固定 k），并让观察次数达到无穷大，则 k 折交叉验证对于模型选择将是渐近不一致的，即，它将识别不正确的模型概率大于 0。这个令人惊讶的结果归功于 Jun Shao, "Linear Model Selection by Cross-Validation", Journal of the American Statistical Association , 88 , 486-494 (1993)，但在这方面可以找到更多论文。

一般来说，受人尊敬的统计论文指定交叉验证协议，正是因为结果不是一成不变的。在他们为大型数据集选择大量折叠的情况下，他们会评论并尝试纠正模型选择中的偏差。

其它你可能感兴趣的问题

上一篇如何识别时间序列回归预测模型中的传递函数？下一篇应该如何比较两个交叉验证的逻辑回归模型？