如何解释重要性代码?

机器算法验证 预测模型 回归系数 罗吉特
2022-04-21 17:30:07

我正在学习一段时间,我正在尝试进行逻辑回归(在 R 中使用 GLM),现在很难知道该怎么做。

我有一个二元因变量和 15 个自变量。作为运行 GLM 的结果,我得到了:

glm(formula = y ~ ., family = binomial(link = "logit"), data = crs$dataset[crs$train, 
c(crs$input, crs$target)])

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9601  -0.5093   0.3074   0.4809   2.9348

Coefficients:
               Estimate  Std. Error z value Pr(>|z|)    
(Intercept) -0.52793176  0.19178032  -2.753  0.00591 ** 
x1          -0.03566232  0.01605379  -2.221  0.02632 *  
x2           0.00497392  0.00110514   4.501 6.77e-06 ***
x3          -0.00002352  0.00000944  -2.491  0.01272 *  
x4           0.01004249  0.01174335   0.855  0.39246    
x5           0.10133956  0.01674787   6.051 1.44e-09 ***
x6           0.11445741  0.01819984   6.289 3.20e-10 ***
x7           0.06258882  0.01386824   4.513 6.39e-06 ***
x8           0.02266609  0.00103133  21.978  < 2e-16 ***
x9           1.05134745  0.11131339   9.445  < 2e-16 ***
x10         -0.46848579  0.09126661  -5.133 2.85e-07 ***
x11         -0.63923543  0.09490545  -6.735 1.63e-11 ***
x12         -0.36519602  0.08772172  -4.163 3.14e-05 ***
x13          0.02825176  0.00712733   3.964 7.37e-05 ***
x14          0.05050850  0.01282973   3.937 8.26e-05 ***
x15         -0.05083407  0.03117515  -1.631  0.10298    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 31488  on 26813  degrees of freedom
Residual deviance: 19489  on 26798  degrees of freedom
AIC: 19521

Number of Fisher Scoring iterations: 5

Log likelihood: -9744.441 (16 df)
Null/Residual deviance difference: 11999.293 (15 df)
Chi-square p-value: 0.00000000
Pseudo R-Square (optimistic): 0.66283672

我想寻求帮助以查看此结果以了解它是否是可接受的模型。

我使用 ROC 评估了这个模型,它给了我 0,8843 的结果。这是否意味着预测正确率为 88.43%?

我可以使用这些重要代码作为参考(***,**,*,., )吗?我应该选择在我的模型中保留哪一个?

1个回答

你还有大量的学习要做(这可能是件好事)。

首先,您拟合模型的方式有 1 个因变量和 15 个独立变量,除非这些术语的定义发生了变化。像这样的混乱是我希望整个领域禁止使用“自变量”和“因变量”的原因之一。

如果您从 ROC 曲线计算单个数字,它通常是曲线下的面积(或它的某些函数),并不代表正确的百分比。正确百分比取决于您使用的截止值。如果您查看每个合理截止值的正确百分比并绘制它们,那么这就是 ROC 曲线。曲线下面积 (AUC) 为 1 表示完美预测,AUC 为 0.5 表示您的模型相当于扔硬币(不好),您的模型介于两者之间,所以它比硬币好,但还没有完美的。要获得正确的百分比,您需要确定一个截止值(但即使这样也会具有欺骗性,因为您正在使用用于创建模型的相同数据进行测试,并且严格的截止比实际预测提供的信息更少)。

重要性代码(*等)只是 p 值的分类。

在模型中保留哪些术语取决于数据背后的科学以及您想要回答的问题。请记住,输出中的值仅衡量该项的影响,条件是模型中的所有其他变量,删除一项,其他项上的所有 p 值可能会发生变化(并且变化非常显着)。

继续学习。