根据维基百科,布赖尔分数的“原始定义”是:
其中是类数,是预测实例数,是属于第个类个实例的预测概率是结果(或 )。
我有一些数据,人们预测下一季度的失业率是<2.5%、2.5-5%、5-7.5%还是>7.5%。所以它是有序的分类数据。受试者需要预测失业率属于这些类别的概率,并且它们的概率之和需要为 1。有人鼓励我使用 Brier 分数来评估个人预测者的表现,但有些事情让我感到困扰。
考虑第 1 个人:
第一个人真的不知道如何预测失业。这个人只是给所有四个类别分配了相等的概率,最终得到的 Brier 分数为 0.06 + 0.06 + 0.06 + 0.56 = 0.75。
然后比较第 2 个人:
人 2 有一些知识表明失业率会很高。正确的类别是“>7.5% 的失业率”,并且第 2 个人认为发生这种情况的概率为 0.3 - 因此第 2 个人在这方面的表现优于第 1 个人。第 2 个人认为失业率为 5-7.5% 的概率为 0.7。
第 2 个人的 Brier 分数为 0 + 0 + 0.49 + 0.49 = 0.98。所以根据 Brier 评分,第 2 个人比第 1 个人差。
我觉得这很违反直觉,因为第 2 个人实际上知道他们在做什么,而且比第 1 个人分配了更高的概率(0.3 对 0.25)。
在我的特殊情况下这是一个问题吗?
假设在我的特定情况下这是一个问题,如果类别真的是名义上的而不是有序的类别,那会好吗?
假设在我的情况下这是一个问题,我应该使用什么来代替 Brier 分数?

