如果子样本量足够大,为什么我们不能在不替换随机森林中的每棵树的情况下进行抽样?

数据挖掘 随机森林 装袋
2022-03-05 01:22:32

通常如果我们有n观察,对于每棵树,形成一个大小为自举的子样本n更换。在谷歌上搜索它时,我看到的一个常见解释是替换采样对于单个树的独立性是必要的。

但是为什么我们不能像下面这样重新采样:对于树 1,随机采样m没有替换的观察结果n, 在哪里m仍然足够大(当然,前提是n首先足够大)。然后补充所有观察结果并重复树 2 的重采样,依此类推。

即使在这种情况下,我也认为各个子样本是独立的。那么在装袋中进行替换是否还有其他原因需要重新采样?

1个回答

不,样本不会是独立的,数据样本可能会出现偏差。

例如,想象一个类不平衡的二元问题,一旦少数类已经被采样(这很可能发生给定nm) 然后,在没有替换的情况下,其余的树将仅从多数类中采样,这将产生倾斜的树。

一些参考资料:

  1. “基于重采样和不替换的 Bagging 是等价的”,是吗?

对于随机森林,一般来说,替换的概念被认为是必不可少的。这是因为随机森林的基本概念是 bagging 以防止过度拟合,即 bagging 构建了一个在具有高方差的数据上训练的估计器的集合(关于他们所看到的训练数据)。

  1. 为什么随机森林使用有放回抽样而不是无放回抽样?

自举的基本思想是将样本用作总体。并从中重复采样,并替换,以构建与原始样本相同大小的其他样本。

替换是此过程不可或缺的一部分,因为您正在尝试创建其他可能的样本分布,这些分布可能会根据您拥有的样本出现在您的原始总体中。