为什么我们需要在随机森林中进行行抽样?

数据挖掘 随机森林 决策树 助推
2022-01-25 21:36:58

在随机森林中,我们的估计器是决策树,我们进行列(特征)抽样而不在估计器内进行替换,并且在估计器之间进行替换。这很好,因为我们正试图减少单个决策树的高方差。

但是行采样需要什么?

通常数据越多,模型学习的效果就越好,即使我没有任何计算资源限制,为什么我们必须在随机森林分类器的估计器中进行行采样?

3个回答

首先,我认为您对“列抽样”的理解是不正确的。随机森林尝试是每个拆分的特征子集。它不会在没有替换的情况下在单个树中进行采样。随机森林对行进行替换(引导样本)以消除决策树之间的相关性。想一想,如果即使您仅基于特征子集创建每个拆分,您也没有这样做,那么您的树最终会看起来非常相似(或者至少比您自举的情况更相似)。由于仅基于约 63% 的唯一值创建树,您确实有更大的偏差,但通过拥有更多不相关的树来减少方差弥补了这一点。

我认为这是减少偏见的一种方式。如果您正在用 100 棵树训练随机森林,那么您将使用(可能)100 个不同的训练集来种植这些树。由于这些训练集形成了人群,因此您可以实现“人群的智慧”。

我们进行行采样是因为,对于随机森林中的每棵树,我们都有不同的训练集,因此每棵树的预测能力都不同,这将形成一个丰富的森林