数据挖掘 - 如何将随机森林与其他模型进行比较 - 吾爱随笔录

如何将随机森林与其他模型进行比较

数据挖掘神经网络随机森林集成建模

2022-02-24 07:43:06

我是机器学习的新手，我试图理解随机森林中的袋外错误及其使用。

假设我们有一个数据集。首先，我们使用整个数据集（不对其进行拆分）来获得随机森林及其 Out of Bag 错误。然后我们拆分数据集，在训练部分训练一个神经网络，并在数据集的测试部分对其进行测试。

我可以通过比较随机森林的 Out of Bag 误差和神经网络的总测试误差来在两个模型之间进行选择吗？是否有意义？

1个回答

我们通常依靠抽样来验证我们模型的结果。
我们进行训练/测试以在单独的看不见的数据集上测试模型。
如果我们正在进行超参数调优，我们会保留另一组作为验证集，以验证新超参数的结果。随机森林在原始样本（训练数据）的袋装样本

上构建每棵新树。Bagging 意味着采样是通过替换完成的，即您选择一个数据点，将其放回去，然后再选择下一个。在这个过程中，很多重复的数据被采样，很多数据点没有被采样。 选择了约 63% 的数据点在此处阅读其他“未选择”的 37% 数据点称为 Out of Bag 样本。

因此，按照 Bagging 和 RF 的设计方式，我们获得了另一组数据来进行验证。这是对这些样本进行一定程度验证的机会。

这是什么意思，

您将获得 37% 的数据点来验证您的模型
但是 OOB 并没有在完全成熟的 Ensemble 中完成。它是使用随机森林集合中的所有树完成的，在训练期间省略了特定数据点 阅读这里
它不等同于 K-Fold 或在完全构建的 RF 上训练/测试，但它对即将到来的验证错误提供了一个不错的想法。

其它你可能感兴趣的问题

上一篇有没有可能在数据增强中应用深度梦想？下一篇回归或方差分析是基于与分类变量相关的一组 RRP 确定 RRP 的正确方法吗