数据挖掘 - XGBoost 偏向少数族裔 - 吾爱随笔录

我有一个包含 85k 正标签和 53k 负标签的数据集。对于这个用例，我试图将我的努力最大化到负类（准确识别真负，并尽量减少假负）。

目前，我能够将 xgboost 分类器训练到 71% 的准确率，当与测试集对比时，我的混淆矩阵看起来像这样

[ 3890 | 8887 ]
[  844 | 20044]

同样对于这项任务，我真的很想提高我的回忆并尽量减少误报。然而，即使在模型的当前状态下，如果我尝试提交 43k 条新记录进行预测（结果未知），我的模型预测所有 43k 条记录都不合规。

鉴于此信息，我的两个问题如下：

这种现象是多么的不规律。我认为向多数阶级倾斜是可能的，但不是少数。
是否有任何“最佳实践”可以用来降低我的模型的攻击性？它不仅预测所有声明都是否定的 (0)，而且它具有很强的信心（最小“发生概率”高于 90%）。同样，我的火车组中只有不到 40% 的记录属于少数类，所以我不明白为什么它会如此严重地倾斜。

谢谢