为什么在这个逻辑多重回归中一个结果如此广泛

机器算法验证 物流 多重回归 多重共线性 分离
2022-03-28 14:00:13

我正在对具有 24 个预测变量和 193 行的数据进行多重逻辑回归。所有预测变量的值为 0 或 1,结果变量 (OUTVAR) 也只有 2 种可能性。

我正在使用以下代码:

import statsmodels.discrete.discrete_model as sm
model = sm.Logit.from_formula(formula=formulastr, data=df)
model_fit = model.fit()
print(model_fit.summary()) 

结果如下:

                           Logit Regression Results                           
==============================================================================
Dep. Variable:                 OUTVAR   No. Observations:                  193
Model:                          Logit   Df Residuals:                      167
Method:                           MLE   Df Model:                           25
Date:                Sun, 15 Dec 2019   Pseudo R-squ.:                  0.4691
Time:                        19:58:12   Log-Likelihood:                -60.734
converged:                      False   LL-Null:                       -114.40
Covariance Type:            nonrobust   LLR p-value:                 3.546e-12
==========================================================================================
               coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------
Intercept   -7.1429      1.398     -5.109      0.000      -9.883      -4.403
var1         0.0359      1.001      0.036      0.971      -1.926       1.998
var2         0.2542      0.630      0.403      0.687      -0.981       1.489
var3         0.9039      0.670      1.350      0.177      -0.408       2.216
var4         0.3396      0.632      0.538      0.591      -0.898       1.578
var5         0.3985      1.077      0.370      0.711      -1.712       2.509
var5         0.1168      1.101      0.106      0.916      -2.041       2.275
var6         1.6755      0.566      2.961      0.003       0.566       2.785
var7         0.7480      0.716      1.045      0.296      -0.655       2.151
var8        22.9672  12194.967      0.002      0.999  -23878.729   23924.663
var9        -0.7337      1.020     -0.720      0.472      -2.732       1.265
var10        1.8130      0.983      1.844      0.065      -0.114       3.740
var11       -0.1299      0.619     -0.210      0.834      -1.344       1.084
var12        0.7897      0.571      1.383      0.167      -0.329       1.909
var13        0.0465      0.680      0.068      0.946      -1.286       1.379
var14       -0.7226      0.573     -1.262      0.207      -1.845       0.400
var15        0.9850      0.571      1.724      0.085      -0.135       2.105
var16        0.3825      0.578      0.662      0.508      -0.751       1.516
var17        0.6759      0.595      1.137      0.256      -0.489       1.841
var18        1.4240      0.556      2.559      0.010       0.333       2.515
var19        0.1379      0.661      0.209      0.835      -1.157       1.433
var20        2.3520      1.060      2.219      0.026       0.275       4.429
var21       -0.5318      0.694     -0.766      0.443      -1.892       0.828
var22        0.3063      0.582      0.526      0.599      -0.835       1.448
var23        1.3203      0.661      1.996      0.046       0.024       2.616
var24       -0.1218      0.848     -0.144      0.886      -1.783       1.540
==========================================================================================

我的问题是,与所有其他变量相比,var8 的大标准误差(因此也是置信区间范围)如此之大的原因可能是什么?这样的结果是什么意思?此外,我们是否可以得出结论,只有 var6、var18、var20 和 var23 与 OUTVAR 独立相关,而所有其他都没有显着相关?

编辑:针对一些评论:

* Number of iterations: 35
* var8 is correlated with outcome variable: P<0.0001
* var8 is not highly correlated with any other predictor variable: maximum R is 0.22

但是, var8 确实完全分离:

OUTVAR      No  Yes
var8          
No         139   47
Yes          0    7

所以这一定是导致多元回归的大(但微不足道)结果的原因。

1个回答

对于您拥有的数据量,您有太多变量。一个粗略的经验法则是,在逻辑回归中,您可以1每个预测变量15不太常见的类别中的观察。193数据,你最多可以有97是或否的实例。这意味着您应该使用不超过6预测器。

该推理涉及所有变量。关于与其他变量不同的特定变量,它可能是共线的或完全分开是或否。要诊断这背后的原因,请查看使用了多少拟合迭代,>10是一些分离的证据;并将 var 8 的普通最小二乘多元回归与所有其余部分拟合(如果满足假设并不重要)并检查多重R2, 一个值>.9认为有问题。要理解分离,在这里阅读我的答案可能会有所帮助:当类分离良好时,为什么逻辑回归变得不稳定? 要理解多重共线性,在这里阅读我的答案可能会有所帮助:在多元回归模型中具有相关预测变量的效果是什么?,在这里:我应该多认真地考虑回归模型中多重共线性的影响?

关于您是否可以得出结论认为 null 适用于非重要变量的最后一个问题,它可能会帮助您在此处阅读我的答案:为什么统计学家说不重要的结果意味着“您不能拒绝 null”为反对接受零假设?