引导或随机划分数据集以减少方差?

数据挖掘 随机森林 决策树 交叉验证 方差
2022-03-05 17:47:35

如果我有 10,000 个训练样本,那么我应该怎么做:

引导并在其上训练 10 个分类器,然后进行聚合

或者

将数据集随机分成 10 个部分并在其上训练 10 个分类器,然后进行聚合。哪个会更好?

第二种方法会减少方差吗,它会比第一种方法更好吗

1个回答

我认为第二种方法将产生比第一种方法更少的相关模型。对于倾向于在底部节点中快速过度拟合的决策树尤其如此。这将有助于减少差异。

但是,通过使用第二种方法,您将以 10 个较小的数据集结束,因此您可能会由于观察数量太少而引入方差错误。再次讨论决策树,这意味着您的树算法将倾向于在树的上层过度拟合。所以你会增加你的方差误差。

在我看来,对于大多数数据集,使用第一种方法仍然比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。

我们还可以观察到,这两种方法的差异还取决于观察的数量、特征的数量、您使用的估计器类型。基准测试会非常有趣!