为什么有些算法会产生校准的概率

机器算法验证 机器学习 可能性 分类
2022-03-13 08:43:44

我已经看到一些算法,尤其是线性算法,会产生经过良好校准的概率。

例如,逻辑回归或多层感知器会产生高度校准的概率,而非线性算法(如 SVM、随机森林或 KNN)则不会。

另一方面,非线性梯度提升树产生了非常好的校准类概率。

有人可以解释为什么使用不同的算法会出现这种情况吗?提前谢谢了!

1个回答

校准反映了根据数据的基本分布预测的类别概率与“真实”概率的匹配程度。因此,学习算法本身的属性并不能普遍决定结果的校准好坏。相反,它取决于学习算法对特定问题的适用程度。

为了说明这一点,这里有一个使用高斯朴素贝叶斯分类器的玩具示例。让我们生成两个数据集,其中每个类中的点都是从 2D 高斯分布中采样的。在第一个数据集中,使用全协方差矩阵生成点。这违反了朴素贝叶斯假设,因为在给定类的情况下,输入特征不是条件独立的。在第二个数据集中,使用对角协方差矩阵生成点。在这种情况下,朴素贝叶斯假设空间实际上包含了真实模型。以下是数据和校准结果:

在此处输入图像描述

第一个数据集的校准很差,但在第二个数据集上相当好。这表明校准良好或校准不佳取决于问题,而不是普遍属性。它还支持这样一种观点,即良好校准度与模型与基础分布的接近程度有关。

也就是说,这与特定学习算法可能倾向于在现实世界问题上产生校准良好或校准不佳的结果这一概念并不矛盾,这些问题可能具有某些共同特征。例如,条件独立性假设不适用于我们关心的许多问题,因此朴素贝叶斯预计会在这些问题上给出校准不佳的结果。

有关概率校准和基准数据集上不同分类器比较的更多信息,请参阅:

Niculescu-Mizil, A. 和 Caruana, R. (2005)。用监督学习预测好的概率。在第 22 届机器学习国际会议论文集上(第 625-632 页)。