Brier 分数和极端的阶级失衡

机器算法验证 机器学习 分类 不平衡类 计分规则
2022-02-04 22:59:57

由于我听说过像 Brier score 或 Log Loss 这样的二进制分类的正确评分规则,我越来越相信它们在实践中的代表性严重不足,有利于准确度、ROC AUC 或 F1 等度量。由于我想在我的组织中推动向正确的模型比较评分规则转变,有一个常见的论点我无法完全回答:

如果存在极端的类别不平衡(例如 5 个正例对 1,000 个负例),Brier 分数如何确保我们选择的模型能够在 5 个正例的高概率预测方面为我们提供最佳性能?因为我们不关心负例的预测值是否接近 0 或 0.5,只要它们相对低于正例的预测值。

我现在有两个可能的答案,但很想听听关于这个话题的专家意见:

1. “Brier 评分作为适当的评分规则,赋予罕见事件在绩效评估中应具有的适当权重。可以使用 ROC AUC 进一步检查辨别力。”

这遵循了 Frank Harrell 对相关问题的评论的逻辑:“对罕见事件的预测对均值具有“正确”影响,即事件的平均预测概率 = 事件的总体比例。无论发生什么,Brier 分数都有效。事件的普遍性。” 正如他在那里进一步建议的那样,可以用 ROC AUC 来补充 Brier 评分,以检查在多大程度上实现了阳性病例与阴性病例的期望相对排名。

2. “我们可以使用分层的 Brier 分数来平均加权每个类别的预测性能。”

这遵循了本文论证的逻辑:“对所有类的 Brier 分数求平均给出了分层 Brier 分数。当存在类不平衡时,分层 Brier 分数更合适,因为它对所有类赋予同等重要性,因此允许任何错误校准少数族裔要被发现。” . 我不确定严格正确的评分规则属性的损失是否值得对少数感兴趣的类别进行更重的加权,以及是否有统计上合理的基础来使用这种以某种方式任意的重新加权方式(“如果我们遵循这种方法,什么阻止我们走得更远,将少数类别的权重设为其他类别的 2、17 或 100 倍?”)。

3个回答

如果存在极端的类别不平衡(例如 5 个正例对 1,000 个负例),Brier 分数如何确保我们选择的模型能够在 5 个正例的高概率预测方面为我们提供最佳性能?因为我们不关心负例的预测值是否接近 0 或 0.5,只要它们相对低于正例的预测值。

关键取决于我们是否可以根据预测变量区分具有不同类别概率的亚群。作为一个极端的例子,如果没有(或没有有用的)预测变量,那么所有实例的预测概率将是相等的,并且要求对负类和正类进行较低的预测是没有意义的,无论我们是在查看 Brier 分数还是其他损失职能。

是的,这很明显。但我们需要牢记这一点。

所以让我们看第二个最简单的情况。假设我们有一个预测变量,可以将我们的人口干净地分成两个亚群。在亚群 1 中,有 4 例阳性病例和 200 例阴性病例。在亚群 2 中,有 1 例阳性病例和 800 例阴性病例。(数字与您的示例相符。)同样,进一步细分亚群的可能性为零。

然后我们将得到属于正类的恒定预测概率p1对于亚群 1 和p2对于亚群 2。那么Brier 得分

15+1000(4(1p1)2+200p12+1(1p2)2+800p22).

使用一点微积分,我们发现这是优化的

p1=151andp2=1801,

这正是两个亚群中正类的比例。这反过来也是应该的,因为这就是 Brier 分数正确的意思。

你有它。正确的 Brier 分数将通过真实的类成员概率进行优化。如果您的预测变量允许您识别具有更高真实概率的子群体或实例,那么 Brier 分数将激励您输出这些更高的概率。相反,如果您无法识别此类亚群,那么 Brier 评分对您无能为力——但其他任何事情也无济于事,因为信息不存在

但是,Brier 分数不会帮助您高估子群体 1 中的概率以及低估子群体 2 中超出真实值的概率p1=151p2=1801,例如,因为“亚群 1 中的阳性病例多于 2 中的阳性病例”。是的,就是这样,但是高估/低估这个值有什么用呢?我们已经知道基于差异的差异p1p2,而偏向这些对我们毫无帮助。

特别是,ROC 分析除了找到一个“最佳”阈值(我在这里断言)之外没有任何帮助。最后,在这个分析中没有任何东西以任何方式取决于类是否平衡,所以我认为不平衡的数据集不是问题

最后,这就是为什么我认为您提出的两个答案没有用。Brier 分数帮助我们获得真正的班级成员概率。然后我们如何处理这些概率将取决于我们的成本结构,并且根据我关于上述阈值的帖子,这是一个单独的问题。是的,根据这种成本结构,我们最终可能会得到分层 Brier 分数的代数重新表述版本,但将统计和决策理论方面分开可以使过程更加清晰。

论文“Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them)”(Wallace & Dahabreh 2012)认为,Brier 分数无法解释少数群体中的不良校准。他们提出了一个分层的 Brier 分数:

BS+=yi=1(yiP^{yi|xi})2Npos
BS=yi=0(yiP^{yi|xi})2Nneg

不幸的是,这并没有给你一个单一的指标来优化,但你可以为你的模型取最大的分层 Brier 分数,以根据所有类的最差性能做出决定。

顺便说一句,作者指出,使用 Platt Scaling 获得的概率估计对于少数类也非常不准确。为了解决这个问题,提出了一些欠采样和装袋的组合。

如果存在极端的类别不平衡(例如 5 个正例对 1,000 个负例),Brier 分数如何确保我们选择的模型能够在 5 个正例的高概率预测方面为我们提供最佳性能?因为我们不关心负例的预测值是否接近 0 或 0.5,只要它们相对低于正例的预测值

它不能确保,请参阅我的反例:

为什么准确性不是评估分类模型的最佳衡量标准?

这并不意味着 Brier 分数不是一个好主意,只是它不是灵丹妙药(因为它没有考虑分析的目的,只是根据数据密度衡量各地概率估计的质量)。