从 XGBoost 获得的原始概率是否代表真正的潜在概率?

数据挖掘 机器学习 分类 xgboost 可能性 概率校准
2021-10-11 05:14:47

1) 使用从 XGBoost 获得的原始概率,例如在 0.4-0.5 范围内获得的概率,作为事件发生概率大约 40%-50% 的真实表示是否可行?(假设我们有一个准确的模型)

2) 与 1) 相同的问题,但对于其他可以输出原始概率的模型。

1个回答

这取决于准确模型的定义,但一般来说,您的问题 1) 的答案是否定的。

关于您的第二个问题(基于下面链接的 Niculescu-Mizil & Caruana 论文中的结果):

  • 提升树木和树桩 - 没有
  • 朴素贝叶斯 - 否
  • 支持向量机 - 否
  • 袋装树 - 是的
  • 神经网络 - 是的

您可以通过查看所谓的可靠性图来测试您的特定模型和数据集是否属于这种情况:

  • 根据模型输出创建 N 个 bin(例如 10-20)
  • 创建一个散点图,其中包含沿 X 轴的每个 bin 的平均模型输出和沿 Y 轴的每个 bin 的平均真实概率

理想情况下,您的 XY 点应位于对角线 Y=X 附近,否则分类器的输出不能解释为事件的概率。

然而,并不是所有的都丢失了,如果需要,可以尝试以一种更好地反映观察到的概率的方式修改(校准)模型的输出。为了评估校准工作是否成功,可以查看基于校准模型输出的可靠性图(而不是使用原始模型输出)。

两种最广泛使用的分类器输出校准技术是Platt 缩放等渗回归,请参见下面的链接。

请注意,不建议使用训练数据集校准分类器(您可能需要为校准目的保留数据的单独子集)。

一些相关链接

用监督学习预测好的概率

校准分类器概率

使用 Platt 标度和等渗回归的分类器校准