当组在混合模型中被视为随机与固定时,斜率估计存在很大差异

机器算法验证 混合模式 随机效应模型 固定效应模型 lme4-nlme 类内相关
2022-02-07 09:07:55

我了解,当我们认为某些模型参数在某些分组因素中随机变化时,我们会使用随机效应(或混合效应)模型。我希望拟合一个模型,其中响应已在分组因子上标准化和居中(不完美,但非常接近),但x没有以任何方式调整自变量。这导致我进行了以下测试(使用捏造的数据),以确保我找到我正在寻找的效果,如果它确实存在的话。我运行了一个具有随机截距(跨由 定义的组)的混合f效应模型和第二个以因子 f 作为固定效应预测因子的固定效应模型。我将 R 包lmer用于混合效果模型,以及基本功能lm()为固定效应模型。以下是数据和结果。

请注意y,无论组如何,都在 0 左右变化。并且在组内x始终y变化,但在组之间的变化比y

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

如果您对处理数据感兴趣,这里是dput()输出:

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

拟合混合效应模型:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

我注意到截距方差分量估计为 0,对我来说重要的是,x它不是y.

接下来,我将固定效应模型拟合f为预测变量,而不是随机截距的分组因子:

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

现在我注意到,正如预期x的那样,它是y.

我正在寻找的是对这种差异的直觉。我的想法在哪方面是错误的?为什么我错误地期望x在这两个模型中找到一个重要参数,但实际上只在固定效应模型中看到它?

2个回答

这里发生了几件事。这些都是有趣的问题,但要解释这一切需要相当多的时间/空间。

首先,如果我们绘制数据,这一切都会变得更容易理解。这是一个散点图,其中数据点按组着色。此外,我们为每个组提供了单独的组特定回归线,以及粗体虚线的简单回归线(忽略组):

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

数据

固定效应模型

固定效应模型将如何处理这些数据相当简单。的影响估计为“控制”组。换句话说,首先相对于组虚拟对象进行正交化,然后这个新的正交化的斜率就是估计的值。在这种情况下,这种正交化将消除 x 中的很多方差(特别是的集群间变异性),因为组虚拟变量与 x 高度(为了直观地认识到这一点,想想如果我们只在一组虚拟变量集上xxxxxxxy出等式。从上图来看,我们当然希望在这个回归中的每个虚拟系数t

所以基本上这对我们来说最终意味着只有集群内可变性用来估计的影响。中的集群间变异性(正如我们在上面看到的那样,是很大的),在分析中被“控制”了。所以我们得到的斜率是 4 条类内回归线的平均值,在这种情况下,所有这些线都相对陡峭。xxxlm()

混合模型

混合模型的作用稍微复杂一些。混合模型尝试使用 x 上的集群内和集群间可变性估计 x 的顺便说一句,这确实是该模型的卖点之一,因为它整合这些额外信息的能力/意愿意味着它通常可以产生更有效的估计。但不幸的是,当 x 的集群间效应和 x 的平均集群内效应并不真正一致时,事情会变得棘手这里的情况一样。注意:这种情况是面板数据的“豪斯曼检验”试图诊断的!xxxx

的平均簇内斜率和忽略簇的简单回归线(粗体虚线)之间的某种折衷。混合模型所依赖的这个折衷范围内的确切点取决于随机截距方差与总方差的比率(也称为类内相关性)。当该比率接近 0 时,混合模型估计值接近简单回归线的估计值。当比率接近 1 时,混合模型估计接近平均集群内斜率估计。x

以下是简单回归模型的系数(图中的粗体虚线):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

如您所见,此处的系数与我们在混合模型中获得的系数相同。这正是我们期望找到的,因为正如您已经指出的,我们对随机截距的方差估计为 0,使前面提到的比率/类内相关性为 0。因此,在这种情况下,混合模型估计只是简单的线性回归估计,正如我们在图中看到的那样,这里的斜率远没有集群内的斜率那么明显。

这给我们带来了最后一个概念问题……

为什么随机截距的方差估计为 0?

这个问题的答案有可能变得有点技术性和困难性,但我会尽量保持简单和非技术性(为了我们俩的缘故!)。但它可能还会有点啰嗦。

我之前提到了类内相关性的概念。这是另一种思考依赖的方式y(或者更准确地说,是模型的错误)由聚类结构引起。类内相关性告诉我们,相对于从数据集中任何位置(即,可能或可能不在同一个簇中)抽取的两个错误的平均相似度,从同一个簇中抽取的两个错误的平均相似度有多大。一个正的类内相关性告诉我们,来自同一个集群的错误往往相对更相似;如果我从一个集群中得出一个错误并且它具有很高的价值,那么我可以预期我从同一个集群中得出的下一个错误也将具有很高的价值。虽然不太常见,但类内相关性也可能是负的;从同一个集群中提取的两个错误与整个数据集通常预期的相似度较低(即,值相差更远)。

我们正在考虑的混合模型没有使用表示数据依赖关系的类内相关方法。相反,它描述了方差分量方面的依赖性。只要类内相关性是正的,这一切都很好。在这些情况下,类内相关性可以很容易地用方差分量来写,特别是前面提到的随机截距方差与总方差的比率。(参见关于类内相关的 wiki 页面有关这方面的更多信息。)但不幸的是,方差分量模型很难处理我们具有负类内相关性的情况。毕竟,将类内相关性写成方差分量涉及将其写成方差的比例,而比例不能为负。

从图中可以看出,这些数据中的类内相关性看起来会略微为负。(我在得出这个结论时所看到的事实是,y在每个集群内,但集群中相对较小的差异意味着y,因此从同一个簇中提取的两个错误往往具有几乎跨越y,而从不同集群中得出的误差往往会有更温和的差异。)因此,您的混合模型在实践中正在做混合模型在这种情况下经常做的事情:它给出的估计值与负类内相关性一致因为它可以集合,但它停止在 0 的下限(这个约束通常被编程到模型拟合算法中)。所以我们最终得到一个估计的随机截距方差为 0,这仍然不是一个很好的估计,但它与这种方差分量类型的模型一样接近。

所以,我们能做些什么?

一种选择是只使用固定效应模型。这在这里是合理的,因为这些数据有两个独立的特征,这对于混合模型来说很棘手(随机组效应与x和负类内相关)。

另一种选择是使用混合模型,但设置它的方式是我们分别估计集群间和集群内的斜率x而不是笨拙地试图将它们汇集在一起​​。在这个答案的底部,我参考了两篇讨论这种策略的论文;我遵循 Bell & Jones 第一篇论文中提倡的方法。

为此,我们采取我们的x预测器并将其分成两个预测器,xb这将只包含集群间的变化x, 和xw这将只包含集群内的变化x. 这是这样的:

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

这里有几点需要注意。首先,系数为xw与我们在固定效应模型中得到的完全一样。到现在为止还挺好。二、系数为xb是我们从回归中得到的回归斜率y仅在集群手段的向量上x. 因此,它并不完全等同于我们第一个图中的粗虚线,它使用了的总方差,但它很接近。第三,虽然的系数小于简单回归模型的系数,但标准误差也小很多,因此统计量更大。这也不足为奇,因为在这个混合模型中,剩余方差要小得多,因为随机组效应会消耗掉简单回归模型必须处理的大量方差。xxbt

最后,由于我在上一节中阐述的原因,我们仍然对随机截距的方差估计为 0。我不确定至少在不切换到除lmer(). 也许其他用户可以对这个问题提出一些想法。

参考

  • Bell, A. 和 Jones, K. (2014)。解释固定效应:时间序列横截面和面板数据的随机效应建模。政治科学研究和方法。 PDF格式
  • Bafumi, J. 和 Gelman, AE (2006)。当预测变量和组效应相关时拟合多级模型。PDF格式

经过深思熟虑,我相信我已经找到了自己的答案。我相信计量经济学家会将我的自变量定义为内生的,因此与自变量和因变量相关。在这种情况下,这些变量被忽略或未观察到但是,我确实观察到了遗漏变量应该变化的分组。

我相信计量经济学家会提出一个固定效应模型也就是说,在这种情况下,模型包括每个分组级别的虚拟变量(或对模型进行调节以使不需要许多分组虚拟变量的等效规范)。使用固定效应模型,希望通过调节跨组(或跨个体)变化来控制所有未观察到的和时间不变的变量。事实上,我问题中的第二个模型正是一个固定效应模型,因此给出了我期望的估计值。

我欢迎进一步阐明这种情况的评论。