从预测的类别概率分布中得出置信度

数据挖掘 机器学习 分类
2021-10-12 15:36:50

我不时遇到这个问题,并且一直觉得应该有一个明显的答案。

我有潜在类别的概率(来自某个分类器)。我将提供概率最高的类别的预测,但是,我还想为该预测附加一个置信度。

示例:如果我有 Classes[C1, C2, C3, C4, C5]并且我的 Probabilities 是{C1: 50, C2: 12, C3: 13, C4: 12, C5:13}我预测 C1 的信心应该高于我有 Probabilities {C1: 50, C2: 45, C3: 2, C4: 1, C5: 2}

报告我以 60% 的概率预测 C1 类并不是全部。我也应该能够从概率分布中获得信心。我确信有一种已知的方法可以解决这个问题,但我不知道它是什么。

编辑:为了澄清,把这一点发挥到极致:如果我有一个 100% 概率的类 C1(并假设分类器对每个类都有准确的表示),那么我会非常有信心 C1 是正确的分类。另一方面,如果所有 5 个类别的概率几乎相等(假设它们都是大约 20%),那么我将非常不确定声称任何一个类别都是正确的分类。这两种极端情况更为明显,挑战在于如何为上述中间示例建立置信度。

任何建议或参考都会有很大帮助。

提前致谢。

2个回答

如果我有类 [C1, C2, C3, C4, C5] 并且我的概率是 {C1: 50, C2: 12, C3: 13, C4: 12, C5:13} 我对预测 C1 的信心应该高于如果我有概率 {C1: 50, C2: 45, C3: 2, C4: 1, C5: 2}。

假设这些概率是准确的,这是不正确的。在第二种情况下,您可以更加确信基本事实是 C1 或 C2 之一,但就 C1 的绝对置信度而言,两个示例的概率相同。用一个更清楚的例子来说明这一点,如果你有一个 100 面的骰子,它的 50 面标有“C1”,那么其他 50 面的标签与你掷出“C1”的可能性无关。

话虽如此,您的模型中的概率肯定不是完美的,因此可能有一种方法可以使用类内相关性来改进它们。您能否提供一些有关您用于获取概率的特定问题和建模工作流程的更多详细信息?

正如@David 所说,在您最初的示例中,您对 C1 的信心在两种情况下都是相同的。在您的第二个示例中,您肯定对第二种情况下最可能的类别不太有信心,因为最可能的类别的可能性要小得多!

当你说“信心”时,你可能不得不解开你的意思,因为在这里你不是把它当作一个艺术术语,而是一个英文单词。

我怀疑您可能正在寻找的概念,或者所有类别概率分布中存在的不确定性。在您的第一个示例中,第二种情况确实低于第一种。我不认为你得到的只是最可能类的一个函数,也就是说。