随机森林学习曲线

机器算法验证 机器学习 方差 交叉验证 随机森林
2022-04-03 20:01:34

我创建了以下学习曲线来诊断我的随机森林模型。

在此处输入图像描述

正如我所看到的,曲线表示高方差“欠拟合”(不是过拟合),因为交叉验证误差远低于训练误差。

改进给定模型的一般建议是什么?例如,我知道增加训练示例的数量可能有助于解决高方差问题(对于过度拟合的情况)。我的情况是这样吗?如果我没有更多的训练数据怎么办?

1个回答

我怀疑您已经训练了一系列 RF 回归模型,并根据训练集大小绘制了解释方差(而非错误)。解释方差与错误相反。该值将介于 0 和 1 之间。

其次,诊断随机森林的训练解释准确性没有多大意义。在训练和预测时,样本通过树的路径相同,因此当然获得了近乎完美的拟合。这就是为什么使用袋外训练精度/误差的原因。

交叉验证的分数略有增加,因为更多的样本既降低了偏差(更深的树 + 来自数据结构的更密集的采样),又降低了方差(降低的树相关性 + 更少的样本误差)。

所以一切看起来都很好,你可能既没有过度过度拟合也没有过度拟合。我宁愿 (a) 简单地针对不同的超参数设置绘制 OOB-CV,或者 (b) 将模型包装在重复的嵌套 CV 网格搜索中,如果你想真正彻底的话。您可能会发现默认参数接近最优。