随机森林回归器中的Boostrap参数?

数据挖掘 机器学习 Python scikit-学习 随机森林
2022-02-16 05:31:54

RandomForestRegressor 中有一个参数是bootstrap. 默认情况下 bootstrap=True

bootstrap :布尔值,可选(默认=真)

构建树时是否使用引导样本。

因此,如果我设置了文档,bootstrap=False那么我猜没有使用引导样本,但我真的很困惑引导样本在这里的含义是什么?

有解释,但真的很混乱。有人可以用更简单的术语解释一下吗?并且还bootstrap=True有助于提高模型的准确性吗?

谢谢你。

2个回答

在堆栈上参考这个答案

随机森林的好处来自于它通过对观察和特征进行采样来创建种类繁多的树。Bootstrap = False 告诉它在有或没有替换的情况下对观察进行采样 - 当它为 False 时它仍然应该采样,只是没有替换......你通过设置 max_features 告诉它你想要采样的特征份额。

较新的文档清除了这一点:

bootstrap :布尔值,可选(默认=真)

构建树时是否使用引导样本。如果为 False,则使用整个数据集来构建每棵树。

将其设置为 False 使特征的随机子集成为唯一的随机性;每棵树都可以看到整个训练数据集。