基于 Andrew Gelman 的重新缩放方法解释回归系数

机器算法验证 回归 物流 回归系数 标准化
2022-03-19 05:13:35

我在二元逻辑回归模型中有两个预测变量:一个是二元的,一个是连续的。我的主要目标是比较同一模型中两个预测变量的系数。

我遇到了 Andrew Gelman 关于标准化连续回归输入变量的建议:

I)原始提案(2008):将连续预测器除以 2 SD

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II) 更新建议 (2009):将连续预测器除以 1 SD 并将二进制输入值从 (0,1) 重新编码为 (-1,+1))。

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

对结果系数的正确解释对我来说仍然是难以捉摸的:

场景 1:两个预测变量在同一模型中都很重要

结果:未转换的二进制 Y 连续预测器:XCONT(除以 1sd) 二进制预测器:XBIN(重新编码以取值 -1 或 1)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

场景 2:在同一模型中均不显着(但当它们分别在两个不同模型中输入时,它们的系数均显着)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

问题:对于原始缩放方法,解释为“连续预测变量中的一个单位变化涵盖该预测变量的两个标准差”

对于更新的缩放方法,我对场景 #1 的解释是否正确:

(1) 连续预测变量的一个单位变化覆盖 XCONT 的 1 个标准差

(2) 并且 XCONT 中 1 个 SD 的变化相当于二进制预测器 (XBIN) 的 1 个单位变化(即不存在或存在)。

(3) 因此,XBIN 的 1 SD 变化预测 YBIN 增加 1 个单位,而 YCONT 增加 1/3 个单位预测 YBIN 增加 1 个单位?

问题

  • 1-3 中的解释需要更正吗?由于二进制结果变量没有重新编码,我还能说 X 的 1 个单位变化预测二进制结果(0 或 1)的 1 个单位变化吗?

  • 关于结果还有什么可以说的,特别是当我尝试比较连续和二元预测变量的两个系数时?

1个回答

(1) 表述有些尴尬,我不确定您的意思。我会将 XCONT 参数估计解释为:

观测值比 XCONT 的平均值高一个标准差时,YBIN 的频率高出约 32%。

当您解释 XBIN 参数估计时,请记住您是在解释 XCONT 的平均值。

Richard McElreath 在 Statistical Rethinking 中通过一个重新缩放的示例进行工作。