我创建了两个混合回归模型,一个具有原始非标准化变量,一个具有标准化变量的模型。当我从标准化变量转换系数时,我得到不同的系数,尤其是截距。
原始非标准化变量
我用于原始非标准化变量的模型是:
model <- lmer(MatchScore~ElapsedTime+UsableIrisArea+DilationChange+Sharpness+
(1|SubjectID)+(0+DilationChange|SubjectID)+(0+UsableIrisArea|SubjectID)+(0+ElapsedTime|SubjectID),
data=Data, na.action="na.fail", REML=FALSE)
summary(model)
我得到以下结果:
AIC BIC logLik deviance df.resid
124741.4 124814.4 -62360.7 124721.4 10969
Scaled residuals:
Min 1Q Median 3Q Max
-8.1739 -0.5233 0.0491 0.5811 4.0564
Random effects:
Groups Name Variance Std.Dev.
SubjectID (Intercept) 16484.064 128.390
SubjectID.1 DilationChange 4.872 2.207
SubjectID.2 UsableIrisArea 2.510 1.584
SubjectID.3 ElapsedTime 6.593 2.568
Residual 4726.140 68.747
Number of obs: 10979, groups: SubjectID, 73
Fixed effects:
Estimate Std. Error df t value Pr(>|t|)
(Intercept) -162.3829 19.1380 45.9334 -8.485 5.83e-11 ***
ElapsedTime -5.3536 0.4616 35.6739 -11.597 1.17e-13 ***
UsableIrisArea 6.4372 0.2381 46.6754 27.040 < 2e-16 ***
DilationChange -5.3044 0.3542 42.9306 -14.974 < 2e-16 ***
Sharpness 4.8622 0.1516 10793.8131 32.063 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) ElpsdT UsblIA DltnCh
ElapsedTime -0.038
UsableIrsAr -0.383 0.019
DilatinChng -0.008 -0.090 -0.018
Sharpness -0.037 0.041 -0.008 0.000
标准化变量
我用于标准化变量的模型是:
model2 <- lmer(MatchScore~ElapsedTime+UsableIrisArea+DilationChange+Sharpness+
(1|SubjectID)+(0+DilationChange|SubjectID)+(0+UsableIrisArea|SubjectID)+(0+ElapsedTime|SubjectID),
data=Data.Scaled, na.action="na.fail", REML=FALSE)
summary(model2)
我得到以下结果:
AIC BIC logLik deviance df.resid
20216.8 20289.9 -10098.4 20196.8 10969
Scaled residuals:
Min 1Q Median 3Q Max
-8.1032 -0.5237 0.0489 0.5767 4.0852
Random effects:
Groups Name Variance Std.Dev.
SubjectID (Intercept) 0.280539 0.52966
SubjectID.1 DilationChange 0.010866 0.10424
SubjectID.2 UsableIrisArea 0.061813 0.24862
SubjectID.3 ElapsedTime 0.008361 0.09144
Residual 0.348526 0.59036
Number of obs: 10979, groups: SubjectID, 73
Fixed effects:
Estimate Std. Error df t value Pr(>|t|)
(Intercept) -9.730e-02 6.478e-02 7.107e+01 -1.502 0.138
ElapsedTime -1.893e-01 1.638e-02 3.960e+01 -11.562 2.9e-14 ***
UsableIrisArea 5.306e-01 3.380e-02 4.388e+01 15.698 < 2e-16 ***
DilationChange -2.558e-01 1.678e-02 4.439e+01 -15.248 < 2e-16 ***
Sharpness 3.042e-01 9.508e-03 1.079e+04 31.992 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) ElpsdT UsblIA DltnCh
ElapsedTime 0.083
UsableIrsAr -0.061 0.022
DilatinChng 0.023 -0.093 -0.007
Sharpness 0.017 0.040 -0.003 -0.001
然后我使用这篇文章中的逻辑转换标准化系数https://stackoverflow.com/a/23643740/2343633
标准化系数为:
(Intercept) ElapsedTime UsableIrisArea DilationChange Sharpness
494.651361 -5.324217 8.430474 -3.339946 6.32240
这是有趣的地方——当转换标准化系数时,截距实际上是有意义的,匹配分数永远不应低于 0。而具有非标准化系数的模型的截距是负的——这绝对没有意义。此外,您可以看到转换后的标准化系数的一些系数发生了变化,更具体地说,是 Sharpness、UsableIrisArea 和 DilationChange。
我想指出,这些数据非常嘈杂,并非所有受试者都有相同数量的样本,也不是样本之间的时间相同。这是我无法改变的。简而言之,数据就是它。我的问题是:
为什么我会用标准化和原始非标准化变量得到不同的结果。这是一个大问题吗?
鉴于第二个模型(具有标准化变量的模型)更有意义,这应该是我使用的模型吗?
是否有更科学的方法来确定标准化或非标准化变量是否更适合我的模型。
任何其他建议、意见或建议将不胜感激。如果您需要任何其他信息,我非常乐意提供。