在随机森林中,每棵树都是在一个独特的自举数据样本上并行生长的。因为每个 boostrap 样本预计包含大约 63% 的独特观察,这留下了大约 37% 的观察,可用于测试树。
现在,似乎在 Stochastic Gradient Boosting 中,也有一个类似于 RF 中
如果 bag.fraction 设置为大于 0(推荐 0.5),gbm 计算预测性能改进的袋外估计。它评估在选择下一个回归树时未使用的那些观察值的偏差减少情况。
资料来源:Ridgeway (2007),第 3.3 节(第 8 页)。
我无法理解它是如何工作/有效的。假设我在序列中添加一棵树。我在原始数据集的随机子样本上种植这棵树。我可以根据未用于种植它的观察结果来测试这棵树。同意。但是,由于 Boosting 是顺序的,我宁愿使用迄今为止构建的整个树序列来为那些遗漏的观察结果提供预测。而且,很多前面的树很有可能已经看到了这些观察结果。因此,该模型并没有真正在每一轮都在用 RF 等看不见的观察结果进行测试,对吧?
那么,为什么这被称为“袋外”误差估计呢?对我来说,由于观察结果已经被看到,它似乎没有“出”任何袋子?