随机森林和极端随机树之间的区别

机器算法验证 机器学习 相关性 参考 随机森林
2022-02-12 04:34:50

我知道随机森林和极端随机树的不同之处在于随机森林中树的分裂是确定性的,而在极端随机树的情况下它们是随机的(更准确地说,下一个分裂是最好的分裂在当前树的选定变量中的随机均匀分裂中)。但我并不完全理解这种不同分裂在各种情况下的影响。

  • 他们如何比较偏差/方差?
  • 在存在不相关变量的情况下它们如何比较?
  • 在存在相关变量的情况下它们如何比较?
4个回答

Extra-(Randomized)-Trees (ET)文章包含偏差方差分析。在图 6(第 16 页)中,您可以看到在六个测试(树分类和三个回归)上与包括 RF 在内的多种方法的比较。

两种方法大致相同,当有大量噪声特征(在高维数据集中)时,ET 会更糟。

也就是说,如果(可能是手动的)特征选择接近最佳,性能大致相同,但是,ET 的计算速度可能更快。

从文章本身:

对算法的分析和对几个测试问题变体 K 的最佳值的确定表明,该值原则上取决于问题的具体情况,特别是不相关属性的比例。[...] 偏差/方差分析表明,额外树通过减少方差同时 增加偏差来工作。[...] 当随机化程度增加到最佳水平以上时,方差会略微减小,而偏差通常会显着增加。

没有像往常一样的灵丹妙药。


皮埃尔·格茨、达米恩·恩斯特、路易斯·威亨克尔。“极度随机的树”

ExtraTreesClassifier 就像 RandomForest 的兄弟,但有两个重要区别。

在此处输入图像描述

我们正在构建多个决策树。为了构建多棵树,我们需要多个数据集。最佳实践是我们不在完整数据集上训练决策树,而是只在每棵树的一小部分数据(大约 80%)上进行训练。在随机森林中,我们使用替换绘制观察结果。所以我们可以在随机森林中重复观察。在 ExtraTreesClassifier 中,我们在没有替换的情况下绘制观察结果,因此我们不会像在随机森林中那样重复观察。

拆分是将非同质父节点转换为 2 个同质子节点的过程(最好的)。在 RandomForest 中,它选择最佳拆分将父节点转换为两个最同质的子节点。在 ExtraTreesClassifier 中,它选择一个随机拆分将父节点分成两个随机子节点。

让我们看一些从高方差到低方差排序的集成方法,以 ExtraTreesClassifier 结尾。

1.决策树(高方差)

单个决策树通常会过度拟合它正在学习的数据,因为它只从一个决策路径中学习。来自单个决策树的预测通常不会对新数据做出准确的预测。

2. 随机森林(中方差)

随机森林模型通过引入随机性来降低过度拟合的风险:

  • 构建多棵树(n_estimators)
  • 用替换绘制观察结果(即自举样本)
  • 在每个节点选择的特征的随机子集之间的最佳分割上分割节点。拆分是将非同质父节点转换为 2 个同质子节点的过程(最好)。

3. 额外的树(低方差)

Extra Trees 就像一个随机森林,因为它构建多棵树并使用随机特征子集分割节点,但有两个关键区别:它不引导观察(意味着它无需替换即可采样),并且节点在随机分割上分割,不是最好的分裂。总而言之,ExtraTrees:

  • 默认情况下使用 bootstrap = False 构建多个树,这意味着它无需替换即可采样
  • 节点是基于在每个节点选择的特征的随机子集之间的随机拆分进行拆分的

在 Extra Trees 中,随机性不是来自引导数据,而是来自所有观察值的随机拆分。ExtraTrees 以(极端随机树)命名。

非常感谢您的回答!由于我仍有疑问,我进行了一些数值模拟,以便对这两种方法的行为有更多的了解。

  • 在存在噪声特征的情况下,额外的树似乎可以保持更高的性能。

下图显示了性能(通过交叉验证评估),因为与目标无关的随机列被添加到数据集中。目标只是前三列的线性组合。 存在不相关变量的随机森林与额外树

  • 当所有变量都相关时,两种方法似乎都能达到相同的性能,

  • 额外的树似乎比随机森林快三倍(至少,在 scikit learn 实现中)

来源

链接到全文:随机森林与额外树木

答案是视情况而定。我建议你在你的问题上尝试随机森林和额外的树。尝试大森林(1000 - 3000 棵树/估计器,sklearn 中的 n_estimators)并调整每次分割时考虑的特征数量(sklearn 中的 max_features)以及每次分割的最小样本(sklearn 中的 min_samples_split)和最大树深度( sklearn 中的最大深度)。也就是说,您应该记住,过度调整可能是过度拟合的一种形式。

以下是我个人处理的两个问题,其中额外的树被证明对非常嘈杂的数据很有用:

用于大型嘈杂海底特征集的机器学习分类的决策森林

粘贴样本的高效分布式蛋白质紊乱预测