如果我们没有足够的数据,如何校准模型?

机器算法验证 机器学习 分类 随机森林 验证 校准
2022-03-14 21:13:52

我正在研究具有 977 条记录和 6 个特征的数据集大小的随机森林分类。但是,我的班级不平衡,比例是 77:23

我正在阅读有关模型校准(二元分类)以改进/校准实际拟合模型(在本例中为 RF)的预测概率的信息。

但是,我还发现校准模型必须使用不同的数据集进行拟合。

但问题是,我已经使用了 sklearn 训练和测试拆分——我的训练有 680 条记录,我的测试有 297 条记录(随机森林模型)

现在,我该如何校准我的模型(因为我没有任何新数据)

特别是,当我使用随机森林时,我希望校准我的模型以获得更好的预测概率?

如果您有兴趣查看我的校准曲线和brier score loss,请在下面找到

在此处输入图像描述

更新 - 额外的树分类器

在此处输入图像描述

更新 - 逻辑回归

在此处输入图像描述

更新 - 引导 optimisim

在此处输入图像描述

1个回答

我还发现校准模型必须使用不同的数据集进行拟合。

这并不完全正确。正如Frank Harrell 解释的那样,对于这种规模的数据集,通常最好在整个数据集上开发模型,然后通过在多个引导样本上重复建模并评估整个数据集的性能来验证建模过程(如 usεr11852 所建议的,重复交叉验证也可以解决这个问题。)这允许评估和校正偏差,并生成校准曲线,当应用于来自总体的新数据样本时,这些曲线可能代表模型的质量. 本演示文稿概述了逻辑回归背景下的过程,但原则是一般性的。