数据集如下所示:
- 25000 次观察
- 多达 15 个不同类型的预测变量:数字、多类分类、二进制
- 目标变量是二进制的
对于此类问题,哪种交叉验证方法是典型的?
默认情况下,我使用 K-Fold。在这种情况下,多少次折叠就足够了?(我使用的模型之一是随机森林,这很耗时......)
数据集如下所示:
对于此类问题,哪种交叉验证方法是典型的?
默认情况下,我使用 K-Fold。在这种情况下,多少次折叠就足够了?(我使用的模型之一是随机森林,这很耗时......)
如果您关心构建折叠以便每个变量(最重要的是目标变量)在每个折叠中大致相同地分布,您将获得最佳结果。当应用于目标变量时,这称为分层 k 折。一种方法是对输入进行聚类,并确保每个折叠包含来自每个聚类的相同数量的实例,与它们的大小成正比。
我认为在你的情况下,10 倍的简历就可以了
我认为随机化交叉验证过程比为 k 选择理想值更重要。
因此,随机重复几次 CV 过程并计算分类结果的方差以确定结果是否可行。
我不得不同意 k-fold 应该做得“恰到好处”。但是,有一篇关于“Bootstrap .632+”方法(基本上是平滑的交叉验证)的好文章应该是更好的(但是,据我所知,他们对非二进制数据进行了比较)
也许你想在这里查看这篇文章:http: //www.jstor.org/stable/2965703
K-Fold 应该可以很好地解决二元分类问题。根据训练模型和预测结果所需的时间,我会使用 10-20 倍。
但是有时单次折叠需要几分钟,在这种情况下,我使用 3-5 次但不少于 3 次。希望它有所帮助。