随机森林学习曲线
机器算法验证
机器学习
方差
交叉验证
随机森林
2022-04-03 20:01:34
1个回答
我怀疑您已经训练了一系列 RF 回归模型,并根据训练集大小绘制了解释方差(而非错误)。解释方差与错误相反。该值将介于 0 和 1 之间。
其次,诊断随机森林的训练解释准确性没有多大意义。在训练和预测时,样本通过树的路径相同,因此当然获得了近乎完美的拟合。这就是为什么使用袋外训练精度/误差的原因。
交叉验证的分数略有增加,因为更多的样本既降低了偏差(更深的树 + 来自数据结构的更密集的采样),又降低了方差(降低的树相关性 + 更少的样本误差)。
所以一切看起来都很好,你可能既没有过度过度拟合也没有过度拟合。我宁愿 (a) 简单地针对不同的超参数设置绘制 OOB-CV,或者 (b) 将模型包装在重复的嵌套 CV 网格搜索中,如果你想真正彻底的话。您可能会发现默认参数接近最优。
其它你可能感兴趣的问题
