如果我有 10,000 个训练样本,那么我应该怎么做:
引导并在其上训练 10 个分类器,然后进行聚合
或者
将数据集随机分成 10 个部分并在其上训练 10 个分类器,然后进行聚合。哪个会更好?
第二种方法会减少方差吗,它会比第一种方法更好吗
如果我有 10,000 个训练样本,那么我应该怎么做:
引导并在其上训练 10 个分类器,然后进行聚合
或者
将数据集随机分成 10 个部分并在其上训练 10 个分类器,然后进行聚合。哪个会更好?
第二种方法会减少方差吗,它会比第一种方法更好吗
我认为第二种方法将产生比第一种方法更少的相关模型。对于倾向于在底部节点中快速过度拟合的决策树尤其如此。这将有助于减少差异。
但是,通过使用第二种方法,您将以 10 个较小的数据集结束,因此您可能会由于观察数量太少而引入方差错误。再次讨论决策树,这意味着您的树算法将倾向于在树的上层过度拟合。所以你会增加你的方差误差。
在我看来,对于大多数数据集,使用第一种方法仍然比使用第二种方法更好。我认为非常低的相关估计量不会带来比第一种方法更好的改进。
我们还可以观察到,这两种方法的差异还取决于观察的数量、特征的数量、您使用的估计器类型。基准测试会非常有趣!