对具有 22680 个观测值的数据集进行交叉验证。希望训练集包含 21420 个条目。您可以使用多少折叠来进行交叉验证?你如何计算褶皱?
交叉验证的折叠次数
数据挖掘
统计数据
2022-03-12 15:10:55
1个回答
折叠的数量不是你能真正计算出来的。它更多是您通过良好判断选择的参数。通常使用的值在 5 到 10 之间,但您甚至可以使用所谓的留一法交叉验证,其中每个折叠都包含除一个观察之外的所有观察。指导您做出决定的参数通常如下: - 计算成本:您使用的折叠越多,您需要的计算就越多。- 方差:使用的折叠次数越多,交叉验证结果的方差越高 - 偏差:使用的折叠次数越多,交叉验证结果的偏差越小。
在您的情况下,根据您要应用交叉验证的确切上下文,您可能需要在 5 到 10 折之间进行选择。
有关更多详细信息,您可能需要参考Kohavi 1995 年关于交叉验证的论文。
其它你可能感兴趣的问题