袋外抽样是否会使随机森林本质上不如其他分类器稳健?

数据挖掘 机器学习 scikit-学习 随机森林
2022-02-28 06:03:58

所有流行的评估指标(ROC-AUC、混淆矩阵等)都需要两个列表作为参数:与任意一组训练示例 ( x's ) 相关联的实际y标签列表,以及预测标签的并行列表由模型赋予那些x

要构建此类列表,您必须将测试/验证数据集与您提供模型的训练集分开。但是,随机森林会自动划分您给它的训练集的 1/3 以计算袋外得分。我不相信你可以阻止导致这种情况的装袋过程,因为我认为这对随机森林的运作方式至关重要。因为 RF 模型永远不会看到 1/3 的训练集(由于 bagging),所以 RF 是否会创建一个不太彻底的数据集图像,例如,每当为评估保留测试集时,神经网络就会创建?

1个回答

袋外误差是根据未用于特定树的样本计算的。原始记录集被引导。因此,生成了一个无论如何都不包含所有样本的新集合。然后可以使用袋外集来监控模型的性能。当袋外误差上升时(考虑到它的大小很大),这意味着当前树过度拟合了训练样本。因此,袋外采样可用于防止过度拟合,从而使模型更稳健而不是更稳健。

因此,实际上所有样本都用于训练随机森林模型。尽管每棵树一次只使用数据集的一个子集。不要将 RF 模型与单个树混淆!

在这里查看更详细的描述。