应用随机森林算法时是否需要使用交叉验证来避免过拟合?

机器算法验证 交叉验证 随机森林 过拟合
2022-04-04 11:21:04

应用随机森林算法时是否需要使用交叉验证来避免过拟合?

这是我最近接受数据科学家采访时提出的一个问题。任何人都可以给出任何想法吗?谢谢

2个回答

好吧,随机森林使用了专门为减少过度拟合问题而设计的 bagging。

像 bagging 和 CV 这样的集成方法都是避免过度拟合的方法。

交叉验证可以以各种方式用于随机森林建模 - 例如找到最佳数量的树 - 但我不知道它必须在任何地方使用。例如,要测量样本外性能,我认为您可以使用袋外误差。

我想由此产生的问题是'如果你不使用交叉验证,可能过度拟合 - 虽然范围缩小 - 仍然是一个问题'?我不是 100% 确定答案,但是搜索看起来过度拟合可能仍然是一个潜在问题(BMA 和 bagging 都是模型平均的形式,这个问题很容易延续到装袋等可能是随机森林)。在这种情况下,可能需要一些其他方法 - 例如交叉验证。[1]

(当然,交叉验证并不是减少/避免过度拟合的唯一方法,这可能是问题的根本所在。)


[1] Domingos, P., (2000)
“Bayesian Averaging of Classifiers and the Overfitting Problem”
第十七届机器学习国际会议论文集,pp.223-230

由于随机森林正在研究 Bootstrap 聚合的概念,因此没有特别需要交叉验证。在处理森林中的大量树木时,交叉验证将花费您大量时间。

Glen_b 还提到,CV 和 Bagging 是减少过拟合的两种方法,因此使用其中一种就可以了。