k折交叉验证中的折叠大小

数据挖掘 机器学习 交叉验证 评估
2022-03-13 14:35:47

在使用交叉验证评估结果时,可以采用几种策略,例如使用 5 或 10 折,或者做留一个交叉验证,以及进行 80/20 拆分。

我应该在哪些一般条件下尝试一种或另一种?

2个回答

我认为交叉验证几乎总是优于简单的训练测试分割。唯一的问题是计算时间(对于 5 倍交叉验证,您必须训练模型 5 次)。

如果您的问题允许,您应该始终使用交叉验证。

您不应该使用交叉验证的唯一原因是您的模型训练时间过长(例如,最先进的图像识别网络需要在 GPU 集群上进行数周的训练)。

除了保留样本外,我通常提倡交叉验证。至于折叠的数量,这在很大程度上取决于您的数据。通常,您在某个时间点后开始接近收益递减,但您应该尝试并评估几种方案。这在很大程度上是一个经验问题,没有硬性和快速的最佳答案。