由于我听说过像 Brier score 或 Log Loss 这样的二进制分类的正确评分规则,我越来越相信它们在实践中的代表性严重不足,有利于准确度、ROC AUC 或 F1 等度量。由于我想在我的组织中推动向正确的模型比较评分规则转变,有一个常见的论点我无法完全回答:
如果存在极端的类别不平衡(例如 5 个正例对 1,000 个负例),Brier 分数如何确保我们选择的模型能够在 5 个正例的高概率预测方面为我们提供最佳性能?因为我们不关心负例的预测值是否接近 0 或 0.5,只要它们相对低于正例的预测值。
我现在有两个可能的答案,但很想听听关于这个话题的专家意见:
1. “Brier 评分作为适当的评分规则,赋予罕见事件在绩效评估中应具有的适当权重。可以使用 ROC AUC 进一步检查辨别力。”
这遵循了 Frank Harrell 对相关问题的评论的逻辑:“对罕见事件的预测对均值具有“正确”影响,即事件的平均预测概率 = 事件的总体比例。无论发生什么,Brier 分数都有效。事件的普遍性。” 正如他在那里进一步建议的那样,可以用 ROC AUC 来补充 Brier 评分,以检查在多大程度上实现了阳性病例与阴性病例的期望相对排名。
2. “我们可以使用分层的 Brier 分数来平均加权每个类别的预测性能。”
这遵循了本文论证的逻辑:“对所有类的 Brier 分数求平均给出了分层 Brier 分数。当存在类不平衡时,分层 Brier 分数更合适,因为它对所有类赋予同等重要性,因此允许任何错误校准少数族裔要被发现。” . 我不确定严格正确的评分规则属性的损失是否值得对少数感兴趣的类别进行更重的加权,以及是否有统计上合理的基础来使用这种以某种方式任意的重新加权方式(“如果我们遵循这种方法,什么阻止我们走得更远,将少数类别的权重设为其他类别的 2、17 或 100 倍?”)。