我们能否将从输出预测类值和概率(例如逻辑回归或朴素贝叶斯)的分类器获得的后验概率解释为分配给该预测类值的某种置信度分数?
逻辑回归的预测概率可以解释为分类的置信度吗
正如其他答案正确指出的那样,来自逻辑回归和朴素贝叶斯等模型的报告概率是类概率的估计。如果模型为真,则概率确实是正确分类的概率。
但是,了解这可能会产生误导非常重要,因为该模型是估计的,因此不是正确的模型。至少有三个问题。
- 估计的不确定性。
- 型号错误。
- 偏见。
不确定性只是无处不在的事实,即概率只是一个估计。估计的类概率的置信区间可以提供一些关于不确定性的想法(类概率,而不是分类)。
如果模型是错误 并且面对它即使类预测是好的,类概率也可能会产生很大的误导。如果某些数据点有点极端,逻辑回归可能会使两个相当分离的类的类概率错误。它在分类方面可能仍然做得很好。
如果估计过程(故意)提供了有偏估计,则类别概率是错误的。这是我在 lasso 和 ridge 等逻辑回归的正则化方法中看到的。虽然交叉验证的正则化选择会导致模型在分类方面具有良好的性能,但在测试用例上产生的类概率明显被低估(太接近 0.5)。这不一定是坏事,但重要的是要注意。
对于测试用例(特定输入),其类别(例如二进制输出的标签 1)预测概率是测试示例属于该类别的机会。在许多这样的测试用例中,属于第 1 类的比例将倾向于预测概率。置信 度具有置信区间的含义,这是完全不同的。
给定一个具有 2 类的分类器(例如,2 类线性判别或逻辑回归分类器),这两个类的判别值可以应用于 softmax 函数,以产生对该类后验概率的估计:
P1 = exp(d1)/(exp(d1) + exp(d2))
其中 P1 是第 1 类的后验概率估计,d1 和 d2 分别是第 1 类和第 2 类的判别值。在这种情况下,可以将给定类的估计后验概率视为对该类的置信度,对于给定的情况,P1 将等于 1 - P2。
如果分类器以概率预测某个类,则该数字可以用作该分类的置信度的代理。不要与置信区间混淆。例如,如果分类器 P 以 80% 和 60% 的概率将两种情况预测为 +1 和 -1,那么可以说它比 -1 分类更确定 +1 分类是正确的。由 p(1-p) 测量的方差也是一个很好的不确定性度量。请注意,基线置信度为 50% 而不是 0。