我已经实施了 k 折交叉验证来评估随机森林的分类性能。我想知道的是:折叠的预测值是否可以直接比较?
例如,当我在保留折叠 1 上生成预测并获得一个观察值的预测值 0.84 时,我是否可以比折叠 2 中的观察值 0.80 对该预测更有信心?
最终的问题是,是否适合堆叠我的 k-folds 的所有预测,然后从堆叠的预测中计算模型性能(例如 ROC)。这在具有少量正数的高度不平衡数据集的情况下可能很有用,因为每个折叠将具有更少的正数,因此 ROC 将在折叠之间具有相对较高的方差。
这篇关于 RF的帖子很有帮助,但没有直接解决这个问题。
附加信息:我对具有高度不平衡和小正数集的案例特别感兴趣。这不会改变问题,但确实突出了跨折叠结果比较的潜在问题。