随机森林中剩余的未选择数据会发生什么

数据挖掘 机器学习 数据集 数据 随机森林 训练
2021-09-22 06:19:46

我相信在随机森林中,我们会选择带有替换的训练数据的随机样本。我的问题是我们仍有可能遗漏一些数据。那会发生什么。不影响随机森林训练吗?我们是否会在某个时候使用剩下的。

1个回答

我想根据您指定的参数(或实现中可用的参数),可能并非所有样本都在训练期间被选中。

查看Scikit-Learn 的 RandomForestClassifier 文档,我们可以看到bootstrap可以设置一个参数False以确保所有数据点都用于拟合每棵树。否则,假设您选择一些参数全部为 1 ( num_estimators, max_depth, min_samples),那么根本不会使用太多数据!查看源代码,似乎没有检查是否使用了所有数据。

另一个分类器ExtraTrees极随机树)通常被设计为使用所有样本来训练每个估计器。然而,SciKit 学习实现确实允许您禁用它并使用随机引导,这是其他随机森林算法的默认设置。

所以回答你的问题;似乎未使用的样本被遗漏了!