对于概率分数而不是类别,是否有类似混淆矩阵的东西?

机器算法验证 机器学习 可能性 监督学习 混淆矩阵 计分规则
2022-04-09 15:06:26

想象一下,我们有三种动物的照片:狗、猫和马。我们训练我们的图像分类器并得到一个混淆矩阵,注意到该模型倾向于预测狗是马。

但是后来我们阅读了 Cross Validated 并了解到基于阈值的评分规则(如准确性)存在严重缺陷,因此我们希望查看预测概率,而不仅仅是选择概率最高的类别。

有没有办法对概率输出采用混淆矩阵来注意到模型倾向于相信狗是马?想到的想法是取预测概率的总和(如果我们对预测概率执行此操作,则它与混淆矩阵相同,我们“四舍五入”以给出概率1概率最高的类别)。有没有在任何文献中对此进行过探讨?

2个回答

我在文学中从未遇到过这样的事情,但这是一个非常有趣的想法。首先,我想指出存在归一化的混淆矩阵(我知道这不是您要的,但它会说明我要提出的观点,所以请直接告诉我);对于这些类型的混淆矩阵,存在某种形式的归一化,例如行或列总和为 1,矩阵的范数为 1,或者各个元素相对于样本总数进行归一化。当然,这意味着混淆矩阵可以包含范围内的条目[0,1]而不是条目在范围内的典型混淆矩阵[0,NumSamples],它封装了与非标准化混淆矩阵相同的关系,但只是对值进行了缩放。

我的想法不是创建一个包含 TP/TN/FP/FN 作为条目的归一化矩阵,而是使用平均精度等指标为不同类别构建一个一对一分数的矩阵,该指标考虑了阈值如何影响预测。当然,这个矩阵是对称的,因为 Dog-vs-Cat 与 Cat-vs-Dog 具有相同的 AP,但它会给出基于概率分数而不是硬预测的预测置信度的概念。AP 将是我的首选,但这种方法适用于任何使用预测分数的指标(甚至也适用于使用硬预测的指标)。

这只是部分答案,因为这来自我个人训练分类器的经验,而不是文献。

许多分类器同时为每个类输出一个权重(或概率),这意味着权重由数据集中的示例配对。我采用的方法是将这个结果矩阵(行对应于示例,列对应于类,条目是输出权重)作为一个数据集进行研究。

在某些情况下,这涉及估计类之间的条件元概率,但通常配对图和降维图(PCA/MDS/等)揭示了很多关于类之间发生的事情。但是,如果您希望量化类置信度之间的依赖关系,您可能对元概率分布感兴趣。