有关 k 折交叉验证中 k 值如何影响结果准确度的信息

机器算法验证 机器学习 交叉验证 支持向量机
2022-04-09 05:44:30

我一直在做一些机器学习,并且一直在使用 k 折交叉验证来评估算法的泛化性能。我已经尝试了 k = 5 和 k = 200 的 k 折交叉验证,得到了支持向量机分类的非常不同的结果。

k    SVM accuracy
-----------------
5    75%
200  94%

这似乎是由于更改我们为 k 折交叉验证所做的拆分数量而导致的准确性上的巨大差异。这有什么原因吗?我似乎找不到任何关于已经完成调查使用不同 k 值的影响的研究的参考资料。显然,我决定在我的报告中使用哪个 k 值对我的分类器的质量给出了完全不同的印象!

1个回答

没有太多的“证明”,但是当 k 很小时,您将删除更大的数据块,因此您的模型要“学习”的数据量要少得多。对于 k=5,您每次删除 20% 的数据,而对于 k=200,您只删除 0.5%。当 k 很大时,您的模型更有可能在训练部分中拾取所有相关的“结构”。当 k 较小时,“遗漏”部分包含“遗漏”位中不存在的结构的可能性更大 - 有点像“不具代表性的”子样本。