OOB(Out Of Bag)错误应该小于随机森林中的测试集错误吗?

机器算法验证 交叉验证 随机森林 大车 准确性
2022-03-22 02:25:14

我正在使用“R 中的应用程序统计学习简介”一书,并阅读了有关使用 OOB 估计随机森林的模型误差的部分。该图似乎表明 OOB 错误将比测试集错误低很多。但是我找不到任何理由。据我所知,它应该等于测试错误。为什么这两个错误不同?

在此处输入图像描述

1个回答

据我所知,没有。

在这个情节中还有更多奇怪的事情,例如为什么 bagging 在 OOB 错误方面优于随机森林?如果没有关于数据的更多信息,例如在训练和测试中使用了多少样本,就很难解释观察到的情况?培训和测试是如何进行的?

如果模型仅在一小部分样本上进行训练和测试,则观察到的错误率差异可能并不显着。此外,如果问题具有相当陡峭的学习曲线,并且通过保留部分数据进行测试,同时对整个数据集进行 OOB 误差估计,则可能是欠拟合的另一种解释。