如何解释 statsmodel 输出 - logit?

数据挖掘 机器学习 深度学习 数据挖掘 统计数据 逻辑回归
2022-02-07 20:02:59

statsmodel api我使用Python 中的可用模型运行了一个 logit 模型。我对如何理解这些问题没有几个问题

summary1)和summary2输出有什么区别?

2)为什么AICand BICscore在2k-3k的范围内?我在网上读到,较低的值AICBIC表示好的模型。我的模型做得好吗?AIC是否有最佳范围BIC

3 )如您所见covariance Typenon-robust它是什么,我应该关注它吗?

4)还有什么field/item in the output需要注意的吗?

5) 您可以在下面看到某些重要变量(如X2X8、 )X45的系数非常低。它们怎么可能很重要并且仍然具有非常低或接近于零的系数?正常吗?

这是我得到的输出

汇总输出

Dep. Variable:  vae_flag        No. Observations:   3298
Model:  Logit                   Df Residuals:   3241
Method: MLE                     Df Model:   56
Date:   Mon, 30 Dec 2019        Pseudo R-squ.:  0.3347
Time:   21:18:36                Log-Likelihood: -1392.2
converged:  True                LL-Null:    -2092.7
Covariance Type: nonrobust      LLR p-value:    3.894e-256

摘要2输出

Model:  Logit                   Pseudo R-squared:   0.335
Dependent Variable: op_flag     AIC:    2898.4259
Date:   2019-12-30 21:18        BIC:    3246.1870
No. Observations:   3298        Log-Likelihood: -1392.2
Df Model:   56                  LL-Null:    -2092.7
Df Residuals:   3241            LLR p-value:    3.8937e-256
Converged:  1.0000              Scale:  1.0000
No. Iterations: 7.0000  

重要变量

      coef  std err   z     P>|z|   [0.025  0.975]
x2   0.0321 0.060   11.227  0.000   0.558    0.794
x6   2.2996 0.095   24.332  0.000   2.114    2.485
x7  -1.8795 0.082   -22.835 0.000   -2.041  -1.718
x8   0.0002 0.058   2.116   0.034   0.009    0.237
x16  0.2693 0.059   4.564   0.000   0.154    0.385
x33 -0.3138 0.139   -2.254  0.024   -0.587  -0.041
x34  0.4644 0.137   3.392   0.001   0.196    0.733
x45  0.0088 0.052   2.306   0.021   0.018    0.221
x52 -0.1755 0.087   -2.007  0.045   -0.347  -0.004
x55 -0.0982 0.050   -1.965  0.049   -0.196  -0.000
1个回答

非常简短的回答(这里无法详述):

  1. 显然,这两个调用产生了不同的表,其中包含略有不同的统计信息。
  2. AIC 和 BIC 比较嵌套模型。因此,如果您有一些模型并且添加或删除了一些变量(例如),您可以比较 AIC、BIC。就整体数字而言,没有普遍的“好”范围。即使使用较低(呃)AIC,BIC,您也可能拥有“坏”模型。所以 AIC,BIC 真的是在比较“相似”的模型。
  3. 存在稳健的标准误差,其计算方式与“正常”标准误差不同。我认为这表明计算了“正常”标准误差。
  4. 并不真地。伪R-squ。可能会让您对模型拟合有所了解,但它与“正常” R 平方有点不同,我觉得它不太有用。
  5. 系数的值与显着性没有直接关系(小值可能很显着,反之亦然)。显着性是根据标准误差/t-/z-statistics 计算的请注意,您的系数是对数赔率(不是边际效应)。如果您想获得边际效应,您需要寻找一些包(如 R/Stata 中的“边距”),或者您手动执行此操作。

总的来说,我建议好好阅读逻辑回归,因为您似乎对基本概念不确定。