我相信在随机森林中,我们会选择带有替换的训练数据的随机样本。我的问题是我们仍有可能遗漏一些数据。那会发生什么。不影响随机森林训练吗?我们是否会在某个时候使用剩下的。
随机森林中剩余的未选择数据会发生什么
数据挖掘
机器学习
数据集
数据
随机森林
训练
2021-09-22 06:19:46
1个回答
我想根据您指定的参数(或实现中可用的参数),可能并非所有样本都在训练期间被选中。
查看Scikit-Learn 的 RandomForestClassifier 文档,我们可以看到bootstrap
可以设置一个参数False
以确保所有数据点都用于拟合每棵树。否则,假设您选择一些参数全部为 1 ( num_estimators
, max_depth
, min_samples
),那么根本不会使用太多数据!查看源代码,似乎没有检查是否使用了所有数据。
另一个分类器ExtraTrees(极随机树)通常被设计为使用所有样本来训练每个估计器。然而,SciKit 学习实现确实允许您禁用它并使用随机引导,这是其他随机森林算法的默认设置。
所以回答你的问题;似乎未使用的样本被遗漏了!