数据挖掘 - 如果子样本量足够大，为什么我们不能在不替换随机森林中的每棵树的情况下进行抽样？ - 吾爱随笔录

数据挖掘随机森林装袋

2022-03-05 01:22:32

通常如果我们有 $n$ 观察，对于每棵树，形成一个大小为自举的子样本 $n$ 更换。在谷歌上搜索它时，我看到的一个常见解释是替换采样对于单个树的独立性是必要的。

但是为什么我们不能像下面这样重新采样：对于树 1，随机采样 $m$ 没有替换的观察结果 $n$ ，在哪里 $m$ 仍然足够大（当然，前提是 $n$ 首先足够大）。然后补充所有观察结果并重复树 2 的重采样，依此类推。

即使在这种情况下，我也认为各个子样本是独立的。那么在装袋中进行替换是否还有其他原因需要重新采样？

1个回答

不，样本不会是独立的，数据样本可能会出现偏差。

例如，想象一个类不平衡的二元问题，一旦少数类已经被采样（这很可能发生给定 $n$ 和 $m$ ) 然后，在没有替换的情况下，其余的树将仅从多数类中采样，这将产生倾斜的树。

一些参考资料：

对于随机森林，一般来说，替换的概念被认为是必不可少的。这是因为随机森林的基本概念是 bagging 以防止过度拟合，即 bagging 构建了一个在具有高方差的数据上训练的估计器的集合（关于他们所看到的训练数据）。

自举的基本思想是将样本用作总体。并从中重复采样，并替换，以构建与原始样本相同大小的其他样本。

替换是此过程不可或缺的一部分，因为您正在尝试创建其他可能的样本分布，这些分布可能会根据您拥有的样本出现在您的原始总体中。

其它你可能感兴趣的问题