我在基本统计中了解到,对于一般线性模型,要使推论有效,观察必须是独立的。当发生聚类时,除非考虑到这一点,否则独立性可能不再会导致无效推理。解释这种聚类的一种方法是使用混合模型。我想找到一个示例数据集,无论是否模拟,都可以清楚地证明这一点。我尝试使用UCLA 站点上的示例数据集之一来分析聚类数据
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
除非我遗漏了什么,否则这些结果非常相似,我不会认为输出lm()
无效。我查看了其他一些示例(例如,布里斯托大学多级建模中心的 5.2),发现标准误差也没有太大的不同(我对混合模型中的随机效应本身不感兴趣,但值得注意的是混合模型输出的 ICC 为 0.42)。
所以,我的问题是 1)在什么条件下发生聚类时标准误差会显着不同,2)有人可以提供这样一个数据集的例子(模拟与否)。