为什么随机森林树不需要修剪?

机器算法验证 机器学习
2022-01-31 14:52:00

Breiman 说这些树是在没有修剪的情况下生长的。为什么?我的意思是说,随机森林中的树木没有被修剪一定有充分的理由。另一方面,修剪单个决策树以避免过度拟合被认为是非常重要的。出于这个原因,是否有一些文献可供阅读?当然,这些树可能不相关,但仍然存在过度拟合的可能性。

2个回答

粗略地说,随机森林中的两件事可以减轻单棵树中可能发生的一些潜在的过度拟合(这是您通常进行修剪的原因):

  1. 用于训练单个树的样本是“自举”的事实。
  2. 事实上,您有大量使用随机特征的随机树,因此各个树很强大,但彼此之间没有那么相关。

编辑:基于以下OP的评论:

绝对仍然存在过度拟合的可能性。至于文章,您可以阅读 Breiman 的“bagging”以及 Efron 和 Tibshirani 的“bootstrapping”一般的动机。就 2.而言,Breiman 推导出了与树强度和各个分类器的反相关相关的泛化误差的松散界限。没有人使用界限(最有可能),但它旨在直观地了解什么有助于降低集成方法中的泛化误差。这是在随机森林论文本身。我的帖子是根据这些读数和我的经验/推论将您推向正确的方向。

  • Breiman, L.,Bagging 预测器,机器学习,24(2),pp.123-140,1996。
  • 埃夫隆,B。Tibshirani, R. (1993)。引导程序简介。佛罗里达州博卡拉顿
  • 布雷曼,里奥(2001 年)。“随机森林”。机器学习 45 (1): 5-32。

非常深或完全深度的决策树倾向于学习数据中的噪声。他们过拟合导致低偏差但高方差的数据。修剪是决策树中用于减少过度拟合的合适方法。

但是,通常随机森林会在全深度下提供良好的性能。由于随机森林训练使用引导聚合(或替换抽样)以及随机选择特征进行拆分,因此树(或弱学习器)之间的相关性会很低。这意味着尽管单个树具有高方差,但集成输出将是适当的(较低的方差和较低的偏差),因为这些树是不相关的。

如果您仍想控制随机森林中的训练,请控制树深度而不是修剪。