我正在对具有 24 个预测变量和 193 行的数据进行多重逻辑回归。所有预测变量的值为 0 或 1,结果变量 (OUTVAR) 也只有 2 种可能性。
我正在使用以下代码:
import statsmodels.discrete.discrete_model as sm
model = sm.Logit.from_formula(formula=formulastr, data=df)
model_fit = model.fit()
print(model_fit.summary())
结果如下:
Logit Regression Results
==============================================================================
Dep. Variable: OUTVAR No. Observations: 193
Model: Logit Df Residuals: 167
Method: MLE Df Model: 25
Date: Sun, 15 Dec 2019 Pseudo R-squ.: 0.4691
Time: 19:58:12 Log-Likelihood: -60.734
converged: False LL-Null: -114.40
Covariance Type: nonrobust LLR p-value: 3.546e-12
==========================================================================================
coef std err z P>|z| [0.025 0.975]
------------------------------------------------------------------------------------------
Intercept -7.1429 1.398 -5.109 0.000 -9.883 -4.403
var1 0.0359 1.001 0.036 0.971 -1.926 1.998
var2 0.2542 0.630 0.403 0.687 -0.981 1.489
var3 0.9039 0.670 1.350 0.177 -0.408 2.216
var4 0.3396 0.632 0.538 0.591 -0.898 1.578
var5 0.3985 1.077 0.370 0.711 -1.712 2.509
var5 0.1168 1.101 0.106 0.916 -2.041 2.275
var6 1.6755 0.566 2.961 0.003 0.566 2.785
var7 0.7480 0.716 1.045 0.296 -0.655 2.151
var8 22.9672 12194.967 0.002 0.999 -23878.729 23924.663
var9 -0.7337 1.020 -0.720 0.472 -2.732 1.265
var10 1.8130 0.983 1.844 0.065 -0.114 3.740
var11 -0.1299 0.619 -0.210 0.834 -1.344 1.084
var12 0.7897 0.571 1.383 0.167 -0.329 1.909
var13 0.0465 0.680 0.068 0.946 -1.286 1.379
var14 -0.7226 0.573 -1.262 0.207 -1.845 0.400
var15 0.9850 0.571 1.724 0.085 -0.135 2.105
var16 0.3825 0.578 0.662 0.508 -0.751 1.516
var17 0.6759 0.595 1.137 0.256 -0.489 1.841
var18 1.4240 0.556 2.559 0.010 0.333 2.515
var19 0.1379 0.661 0.209 0.835 -1.157 1.433
var20 2.3520 1.060 2.219 0.026 0.275 4.429
var21 -0.5318 0.694 -0.766 0.443 -1.892 0.828
var22 0.3063 0.582 0.526 0.599 -0.835 1.448
var23 1.3203 0.661 1.996 0.046 0.024 2.616
var24 -0.1218 0.848 -0.144 0.886 -1.783 1.540
==========================================================================================
我的问题是,与所有其他变量相比,var8 的大标准误差(因此也是置信区间范围)如此之大的原因可能是什么?这样的结果是什么意思?此外,我们是否可以得出结论,只有 var6、var18、var20 和 var23 与 OUTVAR 独立相关,而所有其他都没有显着相关?
编辑:针对一些评论:
* Number of iterations: 35
* var8 is correlated with outcome variable: P<0.0001
* var8 is not highly correlated with any other predictor variable: maximum R is 0.22
但是, var8 确实完全分离:
OUTVAR No Yes
var8
No 139 47
Yes 0 7
所以这一定是导致多元回归的大(但微不足道)结果的原因。