如何确定预测二元结果的“最佳”准确度分数?

机器算法验证 准确性 计分规则
2022-04-02 08:15:45

Frank Harrell 博士在他的书和BIOS 330 课程中提到,

用于驱动模型构建的准确度得分应该是利用数据中所有信息的连续得分(例如 Brier 得分、对数似然度、偏差、均方误差)

我想知道:

  1. 这些分数在什么意义上是“连续的”?当我们将其视为从拓扑空间(输入数据集)到R? 那么事件空间的拓扑/度量是什么?
  2. Brier 得分如何优于“正确分类的比例”作为准确度得分,因为 Brier 得分对结果变量的相对频率也很敏感?考虑一个始终以概率 1 预测 1 的非信息模型,如果真实流行率为 0.30 或 0.005,则 Brier 得分将非常不同。或者我可能没有正确理解这里的敏感性。
  3. 我们如何在连续分数中进行选择?我们有二元预测案例的 Brier 分数、对数似然度、偏差。我们如何决定哪一个会给我们“最好的”模型?
1个回答
  1. 分数是连续的,不是(必然)在对输入数据的小扰动的意义上,而是在预测模型的小扰动的意义上。当然,输入数据中的小扰动通常会在模型中产生小的扰动。

    如果您对离散分类有概率预测并稍微扰乱这些概率,则分数只会略有变化。

    相反,假设您输出基于这些概率和概率阈值的非概率分类,然后通过准确性、精度或类似方法评估质量。如果您稍微扰乱概率或阈值,则分类不会改变,准确性/精度也不会改变。然而,在稍大的扰动下,第一种情况将离散地改变分类,此时,准确度/精度将离散地改变。

  2. 是的,分数将取决于潜在的患病率。但这通常被认为是给定的,而我们想要改变的是预测模型,所以这不是问题。(无论如何,随着流行度的变化,分数也会随之变化。)

  3. 如何在不同的可能评分规则中进行选择是一个比较棘手的问题。Merkle & Steyvers (2013, Decision Analysis )指出 Brier 和对数分数是正确评分规则的两个参数家族的成员(当然,并非所有成员都是严格正确的)。他们给出了一些关于如何选择规则的指导,并指出“研究人员经常发现一个人选择严格适当的评分规则对一个人的结论影响很小”,至少如果我们将自己限制在“经典”评分规则中。