我在二元逻辑回归模型中有两个预测变量:一个是二元的,一个是连续的。我的主要目标是比较同一模型中两个预测变量的系数。
我遇到了 Andrew Gelman 关于标准化连续回归输入变量的建议:
I)原始提案(2008):将连续预测器除以 2 SD
Original manuscript:
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
II) 更新建议 (2009):将连续预测器除以 1 SD 并将二进制输入值从 (0,1) 重新编码为 (-1,+1))。
Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/
对结果系数的正确解释对我来说仍然是难以捉摸的:
场景 1:两个预测变量在同一模型中都很重要
结果:未转换的二进制 Y 连续预测器:XCONT(除以 1sd) 二进制预测器:XBIN(重新编码以取值 -1 或 1)
> orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN,
family=binomial(link="logit")))
> summary(orfit1c)
Call:
glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9842 -0.6001 -0.5481 -0.5481 1.9849
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.8197 0.1761 -10.331 < 2e-16 ***
XCONT 0.3175 0.1190 2.667 0.00765 **
XBIN 1.0845 0.3564 3.043 0.00234 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 385.88 on 407 degrees of freedom
AIC: 391.88
场景 2:在同一模型中均不显着(但当它们分别在两个不同模型中输入时,它们的系数均显着)
Call:
glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link =
"logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0090 -0.6265 -0.5795 -0.5795 1.9573
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.7562 0.1835 -9.570 <2e-16 ***
XCONT2 0.2182 0.1318 1.656 0.0977 .
XBIN2 0.6063 0.3918 1.547 0.1218
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 390.01 on 407 degrees of freedom
AIC: 396.01
问题:对于原始缩放方法,解释为“连续预测变量中的一个单位变化涵盖该预测变量的两个标准差”
对于更新的缩放方法,我对场景 #1 的解释是否正确:
(1) 连续预测变量的一个单位变化覆盖 XCONT 的 1 个标准差
(2) 并且 XCONT 中 1 个 SD 的变化相当于二进制预测器 (XBIN) 的 1 个单位变化(即不存在或存在)。
(3) 因此,XBIN 的 1 SD 变化预测 YBIN 增加 1 个单位,而 YCONT 增加 1/3 个单位预测 YBIN 增加 1 个单位?
问题
1-3 中的解释需要更正吗?由于二进制结果变量没有重新编码,我还能说 X 的 1 个单位变化预测二进制结果(0 或 1)的 1 个单位变化吗?
关于结果还有什么可以说的,特别是当我尝试比较连续和二元预测变量的两个系数时?