机器算法验证 - 什么时候适合使用不正确的评分规则？ - 吾爱随笔录

机器算法验证分类预测计分规则

2022-01-22 21:55:31

Merkle & Steyvers (2013) 写道：

为了正式定义一个适当的评分规则，让是对伯努利试验的概率预测，其真实成功概率为。时期望值最小化的指标。 $f$ $d$ $p$ $f = p$

我知道这很好，因为我们希望鼓励预测者生成真实反映他们真实信念的预测，并且不想给他们不正当的动机去做其他事情。

是否有任何适合使用不正确评分规则的真实示例？

3个回答

当目的实际上是预测而不是推理时，使用不正确的评分规则是合适的。当我是要进行预测的人时，我真的不在乎另一位预测员是否在作弊。

适当的评分规则可确保在估计过程中模型接近真实数据生成过程 (DGP)。这听起来很有希望，因为当我们接近真正的 DGP 时，我们在任何损失函数下的预测方面也会做得很好。问题是大多数时候（实际上几乎总是）我们的模型搜索空间不包含真正的 DGP。我们最终用我们提出的某种函数形式来逼近真正的 DGP。

在这个更现实的环境中，如果我们的预测任务比计算出真实 DGP 的整个密度更容易，我们实际上可能会做得更好。对于分类尤其如此。例如，真正的 DGP 可能非常复杂，但分类任务可能非常简单。

Yaroslav Bulatov 在他的博客中提供了以下示例：

正如您在下面看到的那样，真实密度是不稳定的，但是很容易构建一个分类器来将由此生成的数据分成两个类别。简单地说，如果输出类 1，如果输出类 2。 $x \ge 0$ $x < 0$

我们提出了下面的粗略模型，而不是匹配上面的精确密度，这与真正的 DGP 相去甚远。但是它确实进行了完美的分类。这是通过使用不正确的铰链损失发现的。

另一方面，如果您决定找到具有对数损失的真正 DGP（这是正确的），那么您将开始拟合一些泛函，因为您不知道您需要先验的确切泛函形式。但是当你越来越努力地匹配它时，你就会开始对事物进行错误分类。

请注意，在这两种情况下，我们都使用了相同的函数形式。在不正确的损失情况下，它退化为一个阶跃函数，进而进行了完美的分类。在适当的情况下，它疯狂地试图满足密度的每个区域。

基本上，我们并不总是需要实现真实模型才能获得准确的预测。或者有时我们真的不需要在整个密度领域做得很好，而只是在其中的某些部分做得很好。

准确度（即正确分类的百分比）是一个不恰当的评分规则，所以从某种意义上说，人们一直都在这样做。

更一般地说，任何强制预测进入预定义类别的评分规则都是不正确的。分类是这种情况的一个极端情况（唯一允许的预测是 0% 和 100%），但天气预报可能也有点不正确——我的地方站似乎每隔 10% 或 20% 报告下雨的可能性，尽管我我敢打赌底层模型要精确得多。

正确的评分规则还假设预测者是风险中性的。实际的人类预测者通常不是这种情况，他们通常是风险厌恶的，并且某些应用程序可能会受益于再现该偏差的评分规则。例如，你可能会给 P(rain) 增加一点额外的重量，因为带着雨伞但不需要它比被倾盆大雨夹住要好得多。

正如 Cagdas Ozgenc 所指出的，一个简化的答案可能是：只要您不以真正的预测分布为目标。

第二个方面是拟合/估计、推断和预测比较之间的差异。当您通过最小化适当的评分规则然后添加惩罚来处理过度拟合时，您的目标通常不再是适当的评分规则。

第三，我不知道您想要预测分布但不是真实分布或尽可能接近的用例。然而，在实践中，您通常满足于预测预测分布的某个函数，即点预测，如期望值或分位数。在这些情况下，建议使用适当的评分函数，除非有明确的（业务）目标需要直接优化。另请注意，对于二元目标，期望的评分规则和评分函数的概念是一致的。

这是Cagdas Ozgenc 的回答的大致方向，我想对此发表评论（因为我不能直接发表评论......但是）：

对数损失和铰链损失应该使用相同的参数模型。我敢肯定，具有截距加功能的逻辑回归 $I_{x>0}$ 不会比铰链示例差。
“但它确实完美分类。” 它不是。顺便说一句，“良好分类”的概念是什么？
我猜“分类”是指基于（概率）预测的具体决定，请查看https://stats.stackexchange.com/q/312787以了解有关该区别的更多详细信息。

其它你可能感兴趣的问题