很大时比较嵌套二元逻辑回归模型nn

机器算法验证 r 回归 物流 模型选择 大数据
2022-02-28 16:22:26

为了更好地问我的问题,我在下面提供了 16 个变量模型 ( fit) 和 17 个变量模型 ( fit2) 的一些输出(这些模型中的所有预测变量都是连续的,这些模型之间的唯一区别fit是包含变量 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

我使用 Frank Harrell 的rms包来构建这些lrm模型。如您所见,这些模型在歧视指数排名歧视方面似乎没有太大差异(如果有的话) 。索引但是,使用lrtest(fit,fit2),我得到了以下结果:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

因此,我们将拒绝该似然比检验的原假设;但是,我认为这可能是由于样本量大(n = 102849),因为这些模型似乎以类似的方式执行。此外,我有兴趣找到一种在n很大时正式比较嵌套二元逻辑回归模型的更好方法。

我非常感谢任何可以在比较这些类型的嵌套模型方面引导我朝着正确方向前进的反馈、R 脚本或文档!谢谢!

3个回答

(1) 有大量文献说明为什么人们应该更喜欢完整模型而不是受限/简约模型。我的理解是选择简约模型的几个原因。然而,对于许多临床应用来说,较大的模型可能不可行。

(2) 据我所知,歧视/歧视指标不(?不应该)用作模型/变量选择参数。它们不适用于此用途,因此可能没有太多文献说明为什么不应将它们用于模型构建。

(3) 简约模型可能具有不明显的局限性。与大型模型相比,它们的校准可能较差,外部/内部有效性可能会降低。

(4) 在评估预测未来风险或将个人分为风险类别的模型时,c 统计量可能不是最优的。在这种情况下,校准对于准确评估风险同样重要。例如,优势比为 3 的生物标志物可能对 cstatistic 几乎没有影响,但增加的水平可能会将个体患者的估计 10 年心血管风险从 8% 转移到 24%

库克 NR;医学文献中 ROC 曲线的使用和误用。循环。115 2007:928-935。

(5) 已知 AUC/c 统计量/判别对重要的预测变量不敏感。这在上面的库克参考文献中进行了讨论,以及净重分类指数发展背后的推动力。在上面的库克中也讨论过。

(6) 如果使用标准的变量选择方法,大型数据集仍然会导致比预期更大的模型。在逐步选择过程中,通常使用 0.05 的 p 值截止值。但是这个值没有任何内在意义,这意味着你应该选择这个值。对于较小的数据集,较大的 p 值 (0.2) 可能更合适,在较大的数据集中,较小的 p 值可能更合适(因此,GUSTO I 数据集使用了 0.01)。

(7) 虽然 AIC 经常用于模型选择,并且得到了文献的更好支持,但 BIC 在更大的数据集中可能是一个有效的替代方案。对于 BIC 模型选择,卡方必须超过 log(n),因此它将导致较大数据集中的模型较小。(锦葵可能有类似的特点)

(8) 但是,如果您只想要最多 10 或 12 个变量,则更简单的解决方案类似于bestglmleaps包,您只需设置要考虑的最大变量数。

(9) 如果你只是想要一个让两个模型看起来一样的测试,并且不太担心细节,你可以比较两个模型的 AUC。有些软件包甚至会为您提供比较的 p 值。似乎不可取。

Ambler G (2002) 简化预后模型:基于临床数据
Cook NR 的模拟研究;医学文献中 ROC 曲线的使用和误用。循环。115 2007:928-935。
盖尔 MH,菲佛 RM;关于评估绝对风险模型的标准。生物统计器。6 2005:227-239。

(10) 建立模型后,c-statistics/抽取索引可能不是比较模型的最佳方法,并且有据可查的局限性。比较可能至少还应包括校准、重新分类指数。

Steyerber (2010) 评估预测模型的性能:一些传统和新颖措施的框架

(11) 超越上述范围并使用决策分析措施可能是一个好主意。

维克斯 AJ,埃尔金 EB。决策曲线分析:一种评估预测模型的新方法。医疗决策制定。2006;26:565-74。
Baker SG、Cook NR、Vickers A、Kramer BS。使用相对效用曲线来评估风险预测。JR Stat Soc A. 2009;172:729-48。
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW。标记和风险预测模型的评估:NRI 与决策分析措施之间的关系概述。医疗决策制定。2013;33:490-501

---更新---我发现维克斯文章最有趣。但是,尽管有许多社论,但这仍然没有被广泛接受。所以可能没有太大的实际用途。Cook 和 Steyerberg 的文章更实用。

没有人喜欢逐步选择。我当然不会提倡它。我可能会强调,大多数对逐步的批评都假设 EPV<50,并且可以在完整或预先指定的模型和简化模型之间进行选择。如果 EPV>50 并且承诺采用减少模型,则成本效益分析可能会有所不同。

比较 c-statistics 背后的弱点是它们可能没有什么不同,我似乎记得这个测试明显不足。但现在我找不到参考,所以可能与此相去甚远。

一种选择是对两个模型都使用伪 R 平方度量。伪 R 方的显着差异表明模型拟合通过省略 V17 显着降低。

有不同种类的 Pseudo R-squares 可用。可以在此处找到概述,例如:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

一种流行的度量是 Nagelkerke R-square。它在 0 和 1 之间变化,并且可以小心地解释为来自简单线性回归模型的 R 平方。它基于完整模型的估计可能性与仅截距模型的转换比率。

您可以分别估计fitfit2,并比较相对大小以了解您的问题。一个显着更高的 Nagelkerke R-squarefit将表明fit2由于省略 V17 而失去了很多预测能力。

lrmstats值中提供了 Nagelkerke 的 R 平方。所以给予fit$stats应该给你一个估计。另请参阅?lrm

我刚读到这个。执行此操作的正确方法是使用 R 的 glm 的 finalmodel 输出并查找“残余偏差:”并得出两个模型之间的增量,并在卡方检验中使用该值,使用 df 等于删除的预测项数。这就是你的 p 值。

应用回归建模 Iaian Pardoe,2012 年第 2 版,第 270 页