数据挖掘 - 当观察数量非常大时，k 折交叉验证会变得不那么有用吗？ - 吾爱随笔录

数据挖掘机器学习数据挖掘统计数据交叉验证数据科学模型

2021-10-06 14:04:51

从接受的 k 折交叉验证方差答案中可以看出，模拟表明当 n = 200 时，k 折 CV 对于不同的 k 值具有相同的测试错误率。这是否意味着 k-fold 验证可能与保持集验证一样好？（假设我有丰富的数据来弥补保持集验证方法的高偏差）

除了高偏差之外，ISL 书中描述的保持集验证方法的问题是测试错误率对训练和验证之间的数据随机拆分很敏感。我的直觉是，在 n 非常高（并且数据分布良好）的情况下，由于随机分裂导致的问题似乎不太可能发生。

1个回答

是的，你是对的，当观察数量非常大时，k 折交叉验证 (CV) 的用处不大。让我们看看为什么会这样：

1）非常多的观察意味着模型和验证的训练时间很长。对于要训练和验证的模型，观察的数量已经很大，现在我们要求它完成 k 次。这对资源来说是一个巨大的负担，这就是为什么在深度学习机制中我们通常不遵循 k 倍 CV，因为与传统的 ML 算法相比，训练好的神经网络所需的数据非常高。

2)观察次数越多，为交叉验证集选择的数据数越多。这本质上降低了采样数据点不代表原始分布的可能性。如您所知，我们采样的数据越多，我们就越接近原始分布。

由于这些原因，当观察次数非常多时，k 倍 CV 效率低下，因此为 CV 设置一个保留集就可以了。

其它你可能感兴趣的问题