机器算法验证 - 应用随机森林算法时是否需要使用交叉验证来避免过拟合？ - 吾爱随笔录

应用随机森林算法时是否需要使用交叉验证来避免过拟合？

机器算法验证交叉验证随机森林过拟合

2022-04-04 11:21:04

应用随机森林算法时是否需要使用交叉验证来避免过拟合？

这是我最近接受数据科学家采访时提出的一个问题。任何人都可以给出任何想法吗？谢谢

2个回答

好吧，随机森林使用了专门为减少过度拟合问题而设计的 bagging。

像 bagging 和 CV 这样的集成方法都是避免过度拟合的方法。

交叉验证可以以各种方式用于随机森林建模 - 例如找到最佳数量的树 - 但我不知道它必须在任何地方使用。例如，要测量样本外性能，我认为您可以使用袋外误差。

我想由此产生的问题是'如果你不使用交叉验证，可能过度拟合 - 虽然范围缩小 - 仍然是一个问题'？我不是 100% 确定答案，但是搜索看起来过度拟合可能仍然是一个潜在问题（BMA 和 bagging 都是模型平均的形式，这个问题很容易延续到装袋等可能是随机森林）。在这种情况下，可能需要一些其他方法 - 例如交叉验证。 $^{[1]}$

（当然，交叉验证并不是减少/避免过度拟合的唯一方法，这可能是问题的根本所在。）

[1] Domingos, P., (2000)
“Bayesian Averaging of Classifiers and the Overfitting Problem”
第十七届机器学习国际会议论文集，pp.223-230

由于随机森林正在研究 Bootstrap 聚合的概念，因此没有特别需要交叉验证。在处理森林中的大量树木时，交叉验证将花费您大量时间。

Glen_b 还提到，CV 和 Bagging 是减少过拟合的两种方法，因此使用其中一种就可以了。

其它你可能感兴趣的问题

上一篇用单链检查 MCMC 收敛性下一篇数据点来自正态混合物分布的概率