我正在研究具有 977 条记录和 6 个特征的数据集大小的随机森林分类。但是,我的班级不平衡,比例是 77:23
我正在阅读有关模型校准(二元分类)以改进/校准实际拟合模型(在本例中为 RF)的预测概率的信息。
但是,我还发现校准模型必须使用不同的数据集进行拟合。
但问题是,我已经使用了 sklearn 训练和测试拆分——我的训练有 680 条记录,我的测试有 297 条记录(随机森林模型)
现在,我该如何校准我的模型(因为我没有任何新数据)
特别是,当我使用随机森林时,我希望校准我的模型以获得更好的预测概率?
如果您有兴趣查看我的校准曲线和brier score loss,请在下面找到
更新 - 额外的树分类器
更新 - 逻辑回归
更新 - 引导 optimisim