什么时候适合使用不正确的评分规则?

机器算法验证 分类 预测 计分规则
2022-01-22 21:55:31

Merkle & Steyvers (2013) 写道:

为了正式定义一个适当的评分规则,让是对伯努利试验的概率预测,其真实成功概率为时期望值最小化的指标fdpf=p

我知道这很好,因为我们希望鼓励预测者生成真实反映他们真实信念的预测,并且不想给他们不正当的动机去做其他事情。

是否有任何适合使用不正确评分规则的真实示例?

参考
Merkle, EC 和 Steyvers, M. (2013)。选择严格正确的评分规则。决策分析,10(4),292-304

3个回答

当目的实际上是预测而不是推理时,使用不正确的评分规则是合适的。当我是要进行预测的人时,我真的不在乎另一位预测员是否在作弊。

适当的评分规则可确保在估计过程中模型接近真实数据生成过程 (DGP)。这听起来很有希望,因为当我们接近真正的 DGP 时,我们在任何损失函数下的预测方面也会做得很好。问题是大多数时候(实际上几乎总是)我们的模型搜索空间不包含真正的 DGP。我们最终用我们提出的某种函数形式来逼近真正的 DGP。

在这个更现实的环境中,如果我们的预测任务比计算出真实 DGP 的整个密度更容易,我们实际上可能会做得更好。对于分类尤其如此。例如,真正的 DGP 可能非常复杂,但分类任务可能非常简单。

Yaroslav Bulatov 在他的博客中提供了以下示例:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

正如您在下面看到的那样,真实密度是不稳定的,但是很容易构建一个分类器来将由此生成的数据分成两个类别。简单地说,如果输出类 1,如果输出类 2。x0x<0

在此处输入图像描述

我们提出了下面的粗略模型,而不是匹配上面的精确密度,这与真正的 DGP 相去甚远。但是它确实进行了完美的分类。这是通过使用不正确的铰链损失发现的。

在此处输入图像描述

另一方面,如果您决定找到具有对数损失的真正 DGP(这是正确的),那么您将开始拟合一些泛函,因为您不知道您需要先验的确切泛函形式。但是当你越来越努力地匹配它时,你就会开始对事物进行错误分类。

在此处输入图像描述

请注意,在这两种情况下,我们都使用了相同的函数形式。在不正确的损失情况下,它退化为一个阶跃函数,进而进行了完美的分类。在适当的情况下,它疯狂地试图满足密度的每个区域。

基本上,我们并不总是需要实现真实模型才能获得准确的预测。或者有时我们真的不需要在整个密度领域做得很好,而只是在其中的某些部分做得很好。

准确度(即正确分类的百分比)是一个不恰当的评分规则,所以从某种意义上说,人们一直都在这样做。

更一般地说,任何强制预测进入预定义类别的评分规则都是不正确的。分类是这种情况的一个极端情况(唯一允许的预测是 0% 和 100%),但天气预报可能也有点不正确——我的地方站似乎每隔 10% 或 20% 报告下雨的可能性,尽管我我敢打赌底层模型要精确得多。

正确的评分规则还假设预测者是风险中性的。实际的人类预测者通常不是这种情况,他们通常是风险厌恶的,并且某些应用程序可能会受益于再现该偏差的评分规则。例如,你可能会给 P(rain) 增加一点额外的重量,因为带着雨伞但不需要它比被倾盆大雨夹住要好得多。

正如 Cagdas Ozgenc 所指出的,一个简化的答案可能是:只要您不以真正的预测分布为目标。

第二个方面是拟合/估计、推断和预测比较之间的差异。当您通过最小化适当的评分规则然后添加惩罚来处理过度拟合时,您的目标通常不再是适当的评分规则。

第三,我不知道您想要预测分布但不是真实分布或尽可能接近的用例。然而,在实践中,您通常满足于预测预测分布的某个函数,即点预测,如期望值或分位数。在这些情况下,建议使用适当的评分函数,除非有明确的(业务)目标需要直接优化。另请注意,对于二元目标,期望的评分规则和评分函数的概念是一致的。

这是Cagdas Ozgenc 的回答的大致方向,我想对此发表评论(因为我不能直接发表评论......但是):

  1. 对数损失和铰链损失应该使用相同的参数模型。我敢肯定,具有截距加功能的逻辑回归Ix>0不会比铰链示例差。
  2. “但它确实完美分类。” 它不是。顺便说一句,“良好分类”的概念是什么?
  3. 我猜“分类”是指基于(概率)预测的具体决定,请查看https://stats.stackexchange.com/q/312787以了解有关该区别的更多详细信息。