如何将随机森林与其他模型进行比较

数据挖掘 神经网络 随机森林 集成建模
2022-02-24 07:43:06

我是机器学习的新手,我试图理解随机森林中的袋外错误及其使用。

假设我们有一个数据集。首先,我们使用整个数据集(不对其进行拆分)来获得随机森林及其 Out of Bag 错误。然后我们拆分数据集,在训练部分训练一个神经网络,并在数据集的测试部分对其进行测试。

我可以通过比较随机森林的 Out of Bag 误差和神经网络的总测试误差来在两个模型之间进行选择吗?是否有意义 ?

1个回答

我们通常依靠抽样来验证我们模型的结果。
我们进行训练/测试以在单独的看不见的数据集上测试模型。
如果我们正在进行超参数调优,我们会保留另一组作为验证集,以验证新超参数的结果。 随机森林在原始样本(训练数据) 的袋装样本

上构建每棵新树。Bagging 意味着采样是通过替换完成的,即您选择一个数据点,将其放回去,然后再选择下一个在这个过程中,很多重复的数据被采样,很多数据点没有被采样。 选择了约 63% 的数据点在此处阅读其他“未选择”的 37% 数据点称为 Out of Bag 样本。





因此,按照 Bagging 和 RF 的设计方式,我们获得了另一组数据来进行验证。这是对这些样本进行一定程度验证的机会。

这是什么意思,

  • 您将获得 37% 的数据点来验证您的模型
  • 但是 OOB 并没有在完​​全成熟的 Ensemble 中完成。它是使用随机森林集合中的所有树完成的,在训练期间省略了特定数据点 阅读这里
  • 它不等同于 K-Fold 或在完全构建的 RF 上训练/测试,但它对即将到来的验证错误提供了一个不错的想法。