我是机器学习的新手,我试图理解随机森林中的袋外错误及其使用。
假设我们有一个数据集。首先,我们使用整个数据集(不对其进行拆分)来获得随机森林及其 Out of Bag 错误。然后我们拆分数据集,在训练部分训练一个神经网络,并在数据集的测试部分对其进行测试。
我可以通过比较随机森林的 Out of Bag 误差和神经网络的总测试误差来在两个模型之间进行选择吗?是否有意义 ?
我是机器学习的新手,我试图理解随机森林中的袋外错误及其使用。
假设我们有一个数据集。首先,我们使用整个数据集(不对其进行拆分)来获得随机森林及其 Out of Bag 错误。然后我们拆分数据集,在训练部分训练一个神经网络,并在数据集的测试部分对其进行测试。
我可以通过比较随机森林的 Out of Bag 误差和神经网络的总测试误差来在两个模型之间进行选择吗?是否有意义 ?
我们通常依靠抽样来验证我们模型的结果。
我们进行训练/测试以在单独的看不见的数据集上测试模型。
如果我们正在进行超参数调优,我们会保留另一组作为验证集,以验证新超参数的结果。
随机森林在原始样本(训练数据)
的袋装样本
上构建每棵新树。Bagging 意味着采样是通过替换完成的,即您选择一个数据点,将其放回去,然后再选择下一个。
在这个过程中,很多重复的数据被采样,很多数据点没有被采样。
选择了约 63% 的数据点在此处阅读其他“未选择”的 37% 数据点称为 Out of Bag 样本。
因此,按照 Bagging 和 RF 的设计方式,我们获得了另一组数据来进行验证。这是对这些样本进行一定程度验证的机会。
这是什么意思,