如何为数据中的低正负类比率选择最佳分类器(训练、验证和实时)?

数据挖掘 数据挖掘 分类 阶级失衡 预处理
2021-09-26 17:46:27

正类约为 4%。即使我在训练时通过实时(或测试数据)缩放正类样本来平衡数据,类权重方法也不会起作用,预计分布会很低。如何为这种情况选择一个好的决策边界。

2个回答

如果您对结果感到满意,则不必进行任何不同的训练。如果不是,请对多数类进行欠采样和/或调整损失函数中的类权重。您真正需要更加小心的是对结果的评估,因为像准确性这样的幼稚指标会给您带来错误的希望,因为不平衡允许您通过简单地总是预测多数类或随机预测每个类来实现高精度根据其发生概率。你必须根据这个基准来判断你的成功;就像回归中的决定系数一样,其中基线是样本均值。

您可以使用图形方法(ROC 或精度/召回曲线),或报告类别阳性率的大小加权平均值而不是准确性。以下是其他一些想法:分类应用程序中的评估指标与不平衡数据集的比较

检查分类器是否提供 class_weight='balanced' 或 'auto' 选项。当向下或向上采样时,我得到了更好的结果。对我来说最好的分类器原来是 sklearn 的 SGD。Auto-sklearn 显示出更好的结果。