如何在校准概率模型时选择最佳 bin 宽度?

机器算法验证 可能性 预测模型 二进制数据 校准 计分规则
2022-03-09 23:02:18

背景:关于如何校准预测结果发生概率的模型,这里有一些很好的问题/答案。例如

  1. Brier 分数,并将其分解为分辨率、不确定性和可靠性
  2. 校准图和等渗回归

这些方法通常需要对预测概率使用分箱方法,以便通过取平均结果在分箱上平滑结果 (0, 1) 的行为。

问题: 但是,我找不到任何指导我如何选择 bin 宽度的东西。

问题:如何选择最佳的 bin 宽度?

尝试:使用中的两种常见的 bin 宽度似乎是:

  1. 等宽分箱,例如 10 个分箱,每个分箱覆盖区间 [0, 1] 的 10%。
  2. 此处讨论了 Tukey 的分箱方法

但是,如果人们有兴趣在预测概率中找到校准最差的区间,那么这些箱的选择是否是最优化的?

2个回答

任何使用分箱的统计方法最终都被认为是过时的。自 1990 年代中期以来,连续校准曲线估计已司空见惯。常用的方法是黄土(关闭异常值检测)、线性逻辑校准和样条逻辑校准。我在我的回归建模策略一书和课程笔记中详细介绍了这一点。https://hbiostat.org/rmsRrms包使平滑的非参数校准曲线易于获得,无论是使用独立的外部样本还是使用原始模型开发样本的引导程序。

以我的经验,分箱有助于可视化概率分布,但如果想将 if 用于统计测试和/或参数推断,这通常是一个坏主意。主要是因为立即通过 bin 宽度限制精度。另一个常见问题是当变量不受约束时,即必须引入低截止和高截止。

在 Kolmogorov-Smirnov 精神中使用累积分布可以规避许多这些问题。在这种情况下,也有许多很好的统计方法可用。(例如,参见https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test