评估 Hosmer-Lemeshow 拟合优度的逻辑回归和解释

机器算法验证 r 物流 拟合优度 回归策略 模型评估
2022-02-03 09:38:03

众所周知,有两种评估逻辑回归模型的方法,它们正在测试非常不同的东西

  1. 预测能力:

    获得一个统计数据,衡量您根据自变量预测因变量的能力。著名的 Pseudo R^2 是 McFadden (1974) 和 Cox 和 Snell (1989)。

  2. 拟合优度统计

    该测试告诉您是否可以通过使模型更复杂来做得更好,这实际上是在测试您是否遗漏了任何非线性或交互。

我在我的模型上实现了这两个测试,它
已经添加了二次和交互:

    >summary(spec_q2)

    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())

     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6

预测功率如下,MaFadden 为 0.4004,取 0.2~0.4 之间的值表示模型拟合度非常好(Louviere et al (2000), Domenich and McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

和拟合优度统计:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

据我了解,GOF 实际上是在测试以下零假设和备择假设:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

由于我的模型添加了交互,非线性已经和 p 值显示 H0 应该被拒绝,所以我得出的结论是我的模型确实需要交互,非线性。希望我的解释是正确的,并感谢您提前提供任何建议,谢谢。

3个回答

有几个问题需要解决。

  • R2测量本身永远不会测量拟合优度;他们主要测量预测歧视。拟合优度仅来自于将来自更丰富模型R2R2
  • Hosmer-Lemeshow 检验是针对整体校准误差,而不是针对任何特定的拟合不足,例如二次效应。它没有适当地考虑过度拟合,对 bin 的选择和计算分位数的方法是任意的,并且通常具有太低的功率。
  • 由于这些原因,不再推荐使用 Hosmer-Lemeshow 测试。Hosmer 等人有一个更好的 df 综合拟合测试,在 Rrmsresiduals.lrm函数中实现。
  • 对于您的情况,可以通过联合测试(在“块”测试中)所有平方项和交互项的贡献来评估拟合优度。
  • 但我建议指定模型以使其更有可能预先拟合(尤其是在使用回归样条放松线性假设时)并使用引导程序来估计过拟合并获得过拟合校正的高分辨率平滑校准曲线来检查绝对值准确性。这些是使用 Rrms包完成的。

最后一点,我更喜欢模型灵活的理念(无论如何,受样本大小的限制),并且我们更关注“适合”而不是“缺乏适合”。

来自维基百科

该检验评估观察到的事件发生率是否与模型总体子组中的预期事件发生率相匹配。Hosmer-Lemeshow 检验专门将子组识别为拟合风险值的十分位数。子组中预期和观察到的事件发生率相似的模型称为校准良好的模型。

其含义:在构建模型对模型的 y 进行评分后,您想要交叉检查它是否分布在与实际事件发生率相似的 10 个十分位中。

所以假设将是

  • H0:实际和预测的事件发生率在 10 个十分位中相似
  • H1: 他们是一样的

因此,如果p值小于 0.05,则它们分布不均,您需要改进模型。

我希望这能回答您的一些疑问。

这在@FrankHarrell 的回答之后是相当没有实际意义的,但是 H-L 测试的粉丝会从该结果推断出,尽管您包含了二次项和一些二阶交互,但该模型仍然显示出显着缺乏拟合,并且可能一个更复杂的模型将是合适的。您正在测试您指定的模型的拟合度,而不是更简单的一阶模型。

† 这不是一个完整的二阶模型——要进行三个交互。