数据挖掘 - 引导或随机划分数据集以减少方差？ - 吾爱随笔录

数据挖掘随机森林决策树交叉验证方差

2022-03-05 17:47:35

如果我有 10,000 个训练样本，那么我应该怎么做：

引导并在其上训练 10 个分类器，然后进行聚合

或者

将数据集随机分成 10 个部分并在其上训练 10 个分类器，然后进行聚合。哪个会更好？

第二种方法会减少方差吗，它会比第一种方法更好吗

1个回答

我认为第二种方法将产生比第一种方法更少的相关模型。对于倾向于在底部节点中快速过度拟合的决策树尤其如此。这将有助于减少差异。

但是，通过使用第二种方法，您将以 10 个较小的数据集结束，因此您可能会由于观察数量太少而引入方差错误。再次讨论决策树，这意味着您的树算法将倾向于在树的上层过度拟合。所以你会增加你的方差误差。

在我看来，对于大多数数据集，使用第一种方法仍然比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。

我们还可以观察到，这两种方法的差异还取决于观察的数量、特征的数量、您使用的估计器类型。基准测试会非常有趣！

其它你可能感兴趣的问题