为什么必须使用 REML(而不是 ML)在嵌套的 var-covar 模型中进行选择?

机器算法验证 混合模式 最大似然 无偏估计器 似然比 雷姆
2022-02-12 21:28:51

关于线性混合模型随机效应的模型选择的各种描述指示使用 REML。我在某种程度上知道 REML 和 ML 之间的区别,但我不明白为什么应该使用 REML,因为 ML 是有偏见的。例如,使用 ML 对正态分布模型的方差参数进行 LRT 是否错误(见下面的代码)?我不明白为什么在模型选择中保持公正比成为 ML 更重要。我认为最终的答案必须是“因为模型选择使用 REML 比使用 ML 效果更好”,但我想知道的远不止这些。我没有阅读 LRT 和 AIC 的推导(我还不足以彻底理解它们),但是如果在推导中明确使用了 REML,只要知道这实际上就足够了(例如,

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
3个回答

一个非常简短的答案:REML 是一个 ML,所以基于 REML 的测试无论如何都是正确的。由于使用 REML 估计方差参数更好,因此使用它是很自然的。

为什么 REML 是 ML?考虑一个模型 , , 而是固定效应的向量,是随机效应的向量,受限似然可以通过考虑对比来“移除”固定效应来获得。更准确地说,让,使得(即

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)eN(0,σ2In)npCR(np)×nCX=0CC=InpC的列生成的空间的向量空间的正交基那么,并且的可能性给定是限制可能性。X
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY

似然比检验是基于两个似然比的统计假设检验。它们的属性与最大似然估计 (MLE) 相关联。(参见例如外行术语的最大似然估计(MLE))。

在您的情况下(请参阅问题),您想在两个嵌套的 var-covar 模型中“选择”,假设您想在 var-covar 为的模型和 var-其中第二个(简单模型)是第一个(一般模型)的特例。 ΣgΣs

检验基于似然比 . 其中是最大似然估计量。LR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

统计量是 ,渐近 (!)LR χ2

已知最大似然估计量是一致的,然而,在许多情况下它们是有偏差的。这就是方差的 MLE 估计量的情况,可以证明它们是有偏差的。这是因为它们是使用从数据中得出的平均值计算的,因此“估计平均值”周围的分布小于真实平均值周围的分布(参见例如计算标准偏差时除以的直观解释? )Σ^sΣ^gn1

上面的统计量在大样本中是,这是因为在大样本中,收敛到它们的真实值(MLE 是一致的) )。(注意:在上面的链接中,对于非常大的样本,除以 n 或除以 (n-1) 没有区别)LRχ2Σ^sΣ^g

对于较小的样本,的 MLE 估计将有偏差,因此的分布偏离,而 REML 估计将为 \chi^2 提供无偏,所以如果你使用,对于 var-covar 模型的选择,REML 估计,那么将由更好地近似。Σ^sΣ^gLRχ2ΣsΣgLRχ2

请注意,REML 只能用于在具有相同均值的模型的嵌套 var-covar 结构中进行选择,对于具有不同均值的模型,REML 是不合适的,对于具有不同均值的模型,应该使用 ML。

我的答案更多地与常识有关,而不是与统计有关。如果您查看 SAS 中的 PROC MIXED,可以使用六种方法进行估计:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

但 REML 是默认值。为什么?显然,实践经验表明它具有最好的性能(例如,收敛问题的可能性最小)。因此,如果您的目标可以通过 REML 实现,那么与其他五种方法相比,使用 REML 是有意义的。