数据挖掘 - 从 XGBoost 获得的原始概率是否代表真正的潜在概率？ - 吾爱随笔录

数据挖掘机器学习分类 xgboost 可能性概率校准

2021-10-11 05:14:47

1) 使用从 XGBoost 获得的原始概率，例如在 0.4-0.5 范围内获得的概率，作为事件发生概率大约 40%-50% 的真实表示是否可行？（假设我们有一个准确的模型）

2) 与 1) 相同的问题，但对于其他可以输出原始概率的模型。

1个回答

这取决于准确模型的定义，但一般来说，您的问题 1) 的答案是否定的。

关于您的第二个问题（基于下面链接的 Niculescu-Mizil & Caruana 论文中的结果）：

您可以通过查看所谓的可靠性图来测试您的特定模型和数据集是否属于这种情况：

理想情况下，您的 XY 点应位于对角线 Y=X 附近，否则分类器的输出不能解释为事件的概率。

然而，并不是所有的都丢失了，如果需要，可以尝试以一种更好地反映观察到的概率的方式修改（校准）模型的输出。为了评估校准工作是否成功，可以查看基于校准模型输出的可靠性图（而不是使用原始模型输出）。

两种最广泛使用的分类器输出校准技术是Platt 缩放和等渗回归，请参见下面的链接。

请注意，不建议使用训练数据集校准分类器（您可能需要为校准目的保留数据的单独子集）。

一些相关链接

其它你可能感兴趣的问题