数据挖掘 - 哪种交叉验证类型最适合二分类问题 - 吾爱随笔录

数据挖掘分类交叉验证

2021-10-05 10:58:43

数据集如下所示：

对于此类问题，哪种交叉验证方法是典型的？

默认情况下，我使用 K-Fold。在这种情况下，多少次折叠就足够了？（我使用的模型之一是随机森林，这很耗时......）

4个回答

如果您关心构建折叠以便每个变量（最重要的是目标变量）在每个折叠中大致相同地分布，您将获得最佳结果。当应用于目标变量时，这称为分层 k 折。一种方法是对输入进行聚类，并确保每个折叠包含来自每个聚类的相同数量的实例，与它们的大小成正比。

我认为在你的情况下，10 倍的简历就可以了

我认为随机化交叉验证过程比为 k 选择理想值更重要。

因此，随机重复几次 CV 过程并计算分类结果的方差以确定结果是否可行。

我不得不同意 k-fold 应该做得“恰到好处”。但是，有一篇关于“Bootstrap .632+”方法（基本上是平滑的交叉验证）的好文章应该是更好的（但是，据我所知，他们对非二进制数据进行了比较）

也许你想在这里查看这篇文章：http: //www.jstor.org/stable/2965703

K-Fold 应该可以很好地解决二元分类问题。根据训练模型和预测结果所需的时间，我会使用 10-20 倍。

但是有时单次折叠需要几分钟，在这种情况下，我使用 3-5 次但不少于 3 次。希望它有所帮助。

其它你可能感兴趣的问题