我读过一些随机森林不能过度拟合的文献。虽然这听起来不错,但似乎好得令人难以置信。射频是否可能过拟合?
随机森林不能过拟合?
随机森林可能会过拟合。我确信这一点。通常的意思是,如果你使用更多的树,模型就不会过拟合。
尝试例如估计模型与随机森林。你会得到一个几乎为零的训练错误,但一个糟糕的预测错误
我将尝试在 Donbeo 的回答和 Itachi 的评论的基础上给出更彻底的答案。
随机森林可以过拟合吗?
简而言之,是的,他们可以。
为什么有一个普遍的误解,即随机森林不能过拟合?
原因是,从外部看,随机森林的训练看起来与其他迭代方法(如梯度提升机或神经网络)的训练相似。
然而,大多数其他迭代方法减少了模型对迭代的偏差,因为它们使模型更复杂 (GBM) 或更适合训练数据 (NN)。因此,众所周知,这些方法会受到过度训练的影响,如果训练时间过长,则会过度拟合训练数据,因为减少偏差会增加方差。
另一方面,随机森林只是简单地对迭代中的树进行平均,从而减少模型的方差,同时保持偏差不变。这意味着它们不会受到过度训练的影响,并且确实添加更多的树(因此训练时间更长)不会成为过度拟合的根源。这就是他们获得非过度拟合声誉的地方!
那么他们怎么能过拟合呢?
随机森林通常由高方差、低偏差的完全成熟的决策树构成,它们的优势来自对这些树进行平均所带来的方差减少。但是,如果树的预测彼此过于接近,则方差降低效果有限,最终可能会过度拟合。
例如,如果数据集相对简单,则可能会发生这种情况,因此完全生长的树可以完美地学习其模式并进行非常相似的预测。也具有较高的值mtry
,每次拆分时考虑的特征数量会导致树更加相关,因此会限制方差减少并可能导致一些过度拟合
(重要的是要知道mtry
在许多情况下仍然非常有用,因为它使模型对噪声特征更加鲁棒)
我可以解决这个过度拟合吗?
像往常一样,更多的数据会有所帮助。
限制树的深度也被证明有助于解决这种情况,并减少所选特征的数量以使树尽可能不相关。
作为参考,我真的建议阅读 Elements of Statistical Learning 的相关章节,我认为它给出了非常详细的分析,并深入研究了它背后的数学。
哈斯蒂等人。在Elements of Statistical Learning(第 596 页)中非常简要地解决了这个问题。
另一种说法是随机森林“不能过度拟合”数据。确实,增加[集成中树的数量]不会导致随机森林序列过拟合……但是,这个限制可以使数据过拟合;完全生长的树的平均值可能会导致模型过于丰富,并产生不必要的方差。Segal (2004) 通过控制随机森林中生长的单棵树的深度证明了性能的小幅提升。我们的经验是,使用成熟的树很少会花费太多,并且会减少一个调整参数。