为什么袋装树/随机森林树比单个决策树具有更高的偏差?

机器算法验证 方差 随机森林 大车 偏见 装袋
2022-01-28 11:43:52

如果我们考虑一个完整的决策树(即未修剪的决策树),它具有高方差和低偏差。

Bagging 和随机森林使用这些高方差模型并将它们聚合以减少方差,从而提高预测准确性。Bagging 和随机森林都使用 Bootstrap 采样,如“统计学习要素”中所述,这会增加单棵树的偏差。

此外,由于随机森林方法限制了每个节点中允许的变量拆分,单个随机森林树的偏差甚至增加了更多。

因此,只有在 Bagging 和随机森林中单棵树的偏差增加没有“过度”降低方差时,预测精度才会增加。

这让我想到了以下两个问题:1)我知道,通过 bootstrap 抽样,我们(几乎总是)会在 bootstrap 样本中得到一些相同的观察结果。但是为什么这会导致 Bagging / Random Forests 中个体树的偏差增加?2)此外,为什么在每次拆分中对可用变量进行拆分的限制会导致随机森林中单个树的偏差更高?

3个回答

我会接受昆仑关于1)的答案,但为了结束这个案例,我将在这里就我在论文中得出的两个问题(都被我的导师接受)给出结论:

1)更多的数据产生更好的模型,由于我们只使用整个训练数据的一部分来训练模型(bootstrap),每棵树都会出现更高的偏差(复制自昆仑的答案)

2)在随机森林算法中,我们限制了每次拆分中要拆分的变量数量——即我们限制了解释数据的变量数量。同样,每棵树都会出现更高的偏差。

结论:这两种情况都限制了我们解释总体的能力:首先我们限制了观察的数量,然后我们限制了每次拆分中要拆分的变量数量。这两种限制都会导致每棵树的偏差更高,但模型中的方差减少通常会超过每棵树的偏差增加,因此 Bagging 和随机森林往往会产生比单个决策树更好的模型。

你的问题很简单。1)更多的数据产生更好的模型,因为你只使用整个训练数据的一部分来训练你的模型(bootstrap),更高的偏差是合理的。2)更多的分裂意味着更深的树或更纯净的节点。这通常会导致高方差和低偏差。如果你限制分裂,更低的方差和更高的偏差。

根据“统计学习要素”的作者(见下面的证明):

与 bagging 一样,随机森林的偏差与任何单个采样树的偏差相同。

取自2008 年。《统计学习要素》第 2 版,第 9.2.3 章。哈斯蒂、蒂布希拉尼、弗里德曼

在此处输入图像描述 在此处输入图像描述

然而,你的答案似乎是有道理的,在图 15.10 的右图中,我们可以看到绿色水平线,即单棵树的平方偏差,远低于随机森林的偏差。似乎是一个我还没有理清的矛盾。

编辑:

上述内容在证明(相同来源)下方得到澄清:随机森林中的一棵树随机森林具有相同的偏差,其中单棵树受引导程序限制,并且在每个拆分 (m) 处随机选择的回归器数量不存在。另一方面,在随机森林之外的完全生长的、未修剪的树(不受 m 的引导和限制)具有较低的偏差。因此,随机森林/装袋仅通过减少方差而不是减少偏差来改善。

引用: 在此处输入图像描述