标准化和非标准化变量对混合回归模型产生不同的结果

机器算法验证 混合模式 lme4-nlme 回归系数
2022-03-13 11:24:46

我创建了两个混合回归模型,一个具有原始非标准化变量,一个具有标准化变量的模型。当我从标准化变量转换系数时,我得到不同的系数,尤其是截距。

原始非标准化变量

我用于原始非标准化变量的模型是:

    model <- lmer(MatchScore~ElapsedTime+UsableIrisArea+DilationChange+Sharpness+
             (1|SubjectID)+(0+DilationChange|SubjectID)+(0+UsableIrisArea|SubjectID)+(0+ElapsedTime|SubjectID),
           data=Data, na.action="na.fail", REML=FALSE)
    summary(model)

我得到以下结果:

         AIC      BIC   logLik deviance df.resid 
         124741.4 124814.4 -62360.7 124721.4    10969 

         Scaled residuals: 
         Min      1Q  Median      3Q     Max 
         -8.1739 -0.5233  0.0491  0.5811  4.0564 

         Random effects:
         Groups      Name           Variance  Std.Dev.
         SubjectID   (Intercept)    16484.064 128.390 
         SubjectID.1 DilationChange     4.872   2.207 
         SubjectID.2 UsableIrisArea     2.510   1.584 
         SubjectID.3 ElapsedTime        6.593   2.568 
         Residual                    4726.140  68.747 
         Number of obs: 10979, groups:  SubjectID, 73

         Fixed effects:
         Estimate Std. Error         df t value Pr(>|t|)    
         (Intercept)     -162.3829    19.1380    45.9334  -8.485 5.83e-11 ***
         ElapsedTime       -5.3536     0.4616    35.6739 -11.597 1.17e-13 ***
         UsableIrisArea     6.4372     0.2381    46.6754  27.040  < 2e-16 ***
         DilationChange    -5.3044     0.3542    42.9306 -14.974  < 2e-16 ***
         Sharpness          4.8622     0.1516 10793.8131  32.063  < 2e-16 ***
         ---
         Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

         Correlation of Fixed Effects:
         (Intr) ElpsdT UsblIA DltnCh
         ElapsedTime -0.038                     
         UsableIrsAr -0.383  0.019              
         DilatinChng -0.008 -0.090 -0.018       
         Sharpness   -0.037  0.041 -0.008  0.000

标准化变量

我用于标准化变量的模型是:

    model2 <- lmer(MatchScore~ElapsedTime+UsableIrisArea+DilationChange+Sharpness+
             (1|SubjectID)+(0+DilationChange|SubjectID)+(0+UsableIrisArea|SubjectID)+(0+ElapsedTime|SubjectID),
           data=Data.Scaled, na.action="na.fail", REML=FALSE)

    summary(model2)

我得到以下结果:

    AIC      BIC   logLik deviance df.resid 
    20216.8  20289.9 -10098.4  20196.8    10969 

    Scaled residuals: 
    Min      1Q  Median      3Q     Max 
   -8.1032 -0.5237  0.0489  0.5767  4.0852 

    Random effects:
    Groups      Name           Variance Std.Dev.
    SubjectID   (Intercept)    0.280539 0.52966 
    SubjectID.1 DilationChange 0.010866 0.10424 
    SubjectID.2 UsableIrisArea 0.061813 0.24862 
    SubjectID.3 ElapsedTime    0.008361 0.09144 
    Residual                   0.348526 0.59036 
    Number of obs: 10979, groups:  SubjectID, 73

    Fixed effects:
    Estimate Std. Error         df t value Pr(>|t|)    
    (Intercept)    -9.730e-02  6.478e-02  7.107e+01  -1.502    0.138    
    ElapsedTime    -1.893e-01  1.638e-02  3.960e+01 -11.562  2.9e-14 ***
    UsableIrisArea  5.306e-01  3.380e-02  4.388e+01  15.698  < 2e-16 ***
    DilationChange -2.558e-01  1.678e-02  4.439e+01 -15.248  < 2e-16 ***
    Sharpness       3.042e-01  9.508e-03  1.079e+04  31.992  < 2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Correlation of Fixed Effects:
    (Intr) ElpsdT UsblIA DltnCh
    ElapsedTime  0.083                     
    UsableIrsAr -0.061  0.022              
    DilatinChng  0.023 -0.093 -0.007       
    Sharpness    0.017  0.040 -0.003 -0.001

然后我使用这篇文章中的逻辑转换标准化系数https://stackoverflow.com/a/23643740/2343633

标准化系数为:

       (Intercept)    ElapsedTime UsableIrisArea DilationChange      Sharpness 
       494.651361      -5.324217       8.430474      -3.339946       6.32240

这是有趣的地方——当转换标准化系数时,截距实际上是有意义的,匹配分数永远不应低于 0。而具有非标准化系数的模型的截距是负的——这绝对没有意义。此外,您可以看到转换后的标准化系数的一些系数发生了变化,更具体地说,是 Sharpness、UsableIrisArea 和 DilationChange。

我想指出,这些数据非常嘈杂,并非所有受试者都有相同数量的样本,也不是样本之间的时间相同这是我无法改变的。简而言之,数据就是它。我的问题是:

  1. 为什么我会用标准化和原始非标准化变量得到不同的结果。这是一个大问题吗?

  2. 鉴于第二个模型(具有标准化变量的模型)更有意义,这应该是我使用的模型吗?

  3. 是否有更科学的方法来确定标准化或非标准化变量是否更适合我的模型。

任何其他建议、意见或建议将不胜感激。如果您需要任何其他信息,我非常乐意提供。

1个回答

正如@BenBolker 所指出的,不相关的随机斜率是独立的项。因为随机效应是不相关的,所以加性变换确实并将导致估计的相关性以及结果模型的可能性和预测发生变化(Bates、Mächler、Bolker 和 Walker,2015 年)。

编辑:更新以反映@BenBolker 的评论 - 加法转换将导致问题不是线性问题。

Bates, D.、Mächler, M.、Bolker, B. 和 Walker, S. (2015)。使用 lme4 拟合线性混合效应模型。统计软件杂志, 67(1), 1 - 48. doi: http://dx.doi.org/10.18637/jss.v067.i01