我有一个不平衡的重复测量数据集要分析,并且我读到大多数统计软件包使用 ANOVA(即 III 型平方和)处理此问题的方式是错误的。因此,我想使用混合效应模型来分析这些数据。我在 中阅读了很多关于混合模型的内容R
,但我对R
混合效果模型仍然很陌生,并且对我做正确的事情不是很有信心。请注意,我还不能完全摆脱“传统”方法,仍然需要值和事后检验。
我想知道以下方法是否有意义,或者我是否做错了什么。这是我的代码:
# load packages
library(lme4)
library(languageR)
library(LMERConvenienceFunctions)
library(coda)
library(pbkrtest)
# import data
my.data <- read.csv("data.csv")
# create separate data frames for each DV & remove NAs
region.data <- na.omit(data.frame(time=my.data$time, subject=my.data$subject, dv=my.data$dv1))
# output summary of data
data.summary <- summary(region.data)
# fit model
# "time" is a factor with three levels ("t1", "t2", "t3")
region.lmer <- lmer(dv ~ time + (1|subject), data=region.data)
# check model assumptions
mcp.fnc(region.lmer)
# remove outliers (over 2.5 standard deviations)
rm.outliers <- romr.fnc(region.lmer, region.data, trim=2.5)
region.data <- rm.outliers$data
region.lmer <- update(region.lmer)
# re-check model assumptions
mcp.fnc(region.lmer)
# compare model to null model
region.lmer.null <- lmer(dv ~ 1 + (1|subject), data=region.data)
region.krtest <- KRmodcomp(region.lmer, region.lmer.null)
# output lmer summary
region.lmer.summary <- summary(region.lmer)
# run post hoc tests
t1.pvals <- pvals.fnc(region.lmer, ndigits=10, withMCMC=TRUE)
region.lmer <- lmer(dv ~ relevel(time,ref="t2") + (1|subject), data=region.data)
t2.pvals <- pvals.fnc(region.lmer, ndigits=10, withMCMC=TRUE)
region.lmer <- lmer(dv ~ relevel(time,ref="t3") + (1|subject), data=region.data)
t3.pvals <- pvals.fnc(region.lmer, ndigits=10, withMCMC=TRUE)
# Get mcmc mean and 50/95% HPD confidence intervals for graphs
# repeated three times and stored in a matrix (not shown here for brevity)
as.numeric(t1.pvals$fixed$MCMCmean)
as.numeric(t1.pvals$fixed$HPD95lower)
as.numeric(t1.pvals$fixed$HPD95upper)
HPDinterval(as.mcmc(t1.pvals$mcmc),prob=0.5)
HPDinterval(as.mcmc(t1.pvals$mcmc),prob=0.5)
我有一些具体问题:
- 这是分析混合效应模型的有效方法吗?如果没有,我应该怎么做。
- mcp.fnc 输出的批评图是否足以验证模型假设,还是我应该采取额外的步骤。
- 我认为要使混合模型有效,数据需要尊重正态性和同方差性的假设。如何通过查看 mcp.fnc 生成的批评图来判断什么是“大致正常”,什么不是?我只是需要对此有所了解,还是他们规定的做事方式?就这些假设而言,混合模型的稳健性如何?
- 我需要针对样本中受试者的约 20 个特征(生物标志物)评估三个时间点之间的差异。只要我报告所有已进行的测试(重要或不重要),是否为每个可接受的模型拟合和测试单独的模型,或者我是否需要任何形式的校正以进行多重比较。
为了在实验方面更准确一点,这里有一些更多细节。我们纵向跟踪了一些参与者,因为他们接受了治疗。我们在治疗开始之前和之后的两个时间点测量了许多生物标志物。我想看看这三个时间点之间这些生物标志物是否存在差异。
我在这里所做的大部分工作都基于本教程,但根据我的需要和阅读的内容进行了一些更改。我所做的更改是:
- 重新调整“时间”因子以获得 t1-t2、t2-t3 和 t1-t3 与 pvals.fnc 的比较(来自 languageR 包)
- 使用基于 Kenward-Roger 方法的近似 F 检验(使用 pbkrtest 包)而不是似然比检验将我的混合模型与空模型进行比较(因为我读到,Kenward-Roger 现在更受重视)
- 使用 LMERConvenienceFunctions 包检查假设并删除异常值(因为我读到混合模型对异常值非常敏感)