通常如果我们有观察,对于每棵树,形成一个大小为自举的子样本更换。在谷歌上搜索它时,我看到的一个常见解释是替换采样对于单个树的独立性是必要的。
但是为什么我们不能像下面这样重新采样:对于树 1,随机采样没有替换的观察结果, 在哪里仍然足够大(当然,前提是首先足够大)。然后补充所有观察结果并重复树 2 的重采样,依此类推。
即使在这种情况下,我也认为各个子样本是独立的。那么在装袋中进行替换是否还有其他原因需要重新采样?
通常如果我们有观察,对于每棵树,形成一个大小为自举的子样本更换。在谷歌上搜索它时,我看到的一个常见解释是替换采样对于单个树的独立性是必要的。
但是为什么我们不能像下面这样重新采样:对于树 1,随机采样没有替换的观察结果, 在哪里仍然足够大(当然,前提是首先足够大)。然后补充所有观察结果并重复树 2 的重采样,依此类推。
即使在这种情况下,我也认为各个子样本是独立的。那么在装袋中进行替换是否还有其他原因需要重新采样?
不,样本不会是独立的,数据样本可能会出现偏差。
例如,想象一个类不平衡的二元问题,一旦少数类已经被采样(这很可能发生给定和) 然后,在没有替换的情况下,其余的树将仅从多数类中采样,这将产生倾斜的树。
一些参考资料:
对于随机森林,一般来说,替换的概念被认为是必不可少的。这是因为随机森林的基本概念是 bagging 以防止过度拟合,即 bagging 构建了一个在具有高方差的数据上训练的估计器的集合(关于他们所看到的训练数据)。
自举的基本思想是将样本用作总体。并从中重复采样,并替换,以构建与原始样本相同大小的其他样本。
替换是此过程不可或缺的一部分,因为您正在尝试创建其他可能的样本分布,这些分布可能会根据您拥有的样本出现在您的原始总体中。