我正在使用一个XGBoost分类器进行风险预测,我看到即使它有非常好的二元分类结果,概率输出也主要在以下或以上(比如其中的 60%)。
我已经尝试过校准方法(来自sklearnAPI),但它只是稍微减少了问题。
我的数据集有 1800 个训练点,我在大约 500 个数据点上对其进行了测试。这是相当平衡的。我还使用贝叶斯优化来调整模型的超参数。我的模型有 19 个功能。
有谁知道获得更规律分布概率的解决方案?问题是否在于我的数据点太少?我应该以不同的方式设置我的超参数吗?我的功能太多/太少了吗?