请问如何解释逻辑回归校准图的基础知识?

机器算法验证 r 物流
2022-04-08 09:39:46

第一次在 Stack Overflow 上发帖。我请求帮助解释逻辑回归模型的校准图。我了解理想线的含义,但不了解偏差校正或明显的线。另外,顶部 x 轴上的刻度是什么意思?

我已经阅读了关于rms::calibrate()但需要一些较低级别的文档。

calibration.Model.A <- plot(rms::calibrate(m.A, cmethod=("boot"), B=1000,
                                           legend = TRUE, digits = 3,
                                           subtitles = T),
                            xlab = "Predicted probability according to model",
                            ylab = "Observation Proportion of Matching")

我创建但不理解的校准图。

1个回答

x 轴上的刻度表示预测概率的频率分布(可以称为地毯图)。这是一种查看预测中的稀疏性以及在给定的预测概率区域中预测相对丰富的地方的方法。

“表观”线本质上是样品内校准。

“理想”线代表完美的预测,因为预测的概率等于观察到的概率。

“偏差校正”线是通过重采样程序得出的,以帮助将“不确定性”添加到校准图中,以了解这可能如何执行“样本外”并调整“乐观”(优于实际)校准这实际上是将模型拟合到手头数据的人工制品。这是我们想要了解泛化的思路(直到我们有新数据来尝试模型)。

当两条线中的任何一条高于“理想”线时,这告诉我们模型在该预测概率范围内预测不足。当任一线低于“理想”线时,模型在该预测概率范围内过度预测。

应用于您的特定情节,似乎大多数预测概率都处于较高端(每个地毯情节)。该模型总体上似乎基于紧跟理想线的偏差校正线进行了相当好的校准;在较低的预测概率下存在一些预测不足,因为偏差校正线高于理想线,大约 < 0.3 的预测概率。

平均绝对误差是预测概率和实际概率之间的“平均”绝对差(忽略正误差或负误差)。理想情况下,我们希望它很小(0 表示没有错误是完美的)。这在您的情节中似乎很小,但可能取决于有多小。Frank Harrell 的程序返回的另一个度量是第 90 个百分位的绝对误差(90% 的误差小于这个数字);这也应该被考虑。