使用 Nakagawa & Schielzeth (2013) R2glmm 方法计算R2R2

机器算法验证 r 混合模式 lme4-nlme 随机效应模型 r平方
2022-02-05 20:55:07

我一直在阅读有关在混合模型中计算值的内容,并在阅读了 R-sig 常见问题解答、此论坛上的其他帖子(我会链接一些但我没有足够的声誉)和其他一些参考资料后,我知道使用值很复杂。R2R2

但是,我最近在下面看到了这两篇论文。虽然这些方法看起来很有希望(对我来说),但我不是统计学家,因此我想知道是否有其他人会对他们提出的方法有任何见解,以及它们将如何与已提出的其他方法进行比较。

中川、新一和霍尔格·席尔泽斯。“一种从广义线性混合效应模型中获得 R2 的通用且简单的方法。” 生态与进化方法 4.2 (2013): 133-142。

约翰逊,保罗 CD。“将 Nakagawa & Schielzeth 的 R2GLMM 扩展到随机斜率模型。” 生态与进化方法(2014 年)。

is 方法也可以使用 MuMIn 包中的 r.squaredGLMM 函数来实现,该给出了该方法的以下描述。

对于混合效应模型,可以分为两种类型。边际表示由固定因素解释的方差,定义为: R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2} 条件R^2被解释为由固定和随机因素(即整个模型)解释的方差,并根据以下等式计算: R_{GLMM}(c)^2= \frac{(σ_f ^2 + \sum(σ_l^2))}{(σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2} 其中σ_f^2是固定效应分量的方差,\sum (σ_l^2)是所有方差分量(组、个体等)的总和,σ_l^2R2R2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2是由于加性色散引起的方差,σd2是特定于分布的方差。

在我的分析中,我正在查看纵向数据,我主要对模型中的固定效应解释的方差感兴趣

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
2个回答

我通过粘贴 Douglas Bates 于 2014 年 12 月 17 日在 R-Sig-ME 邮件列表中关于如何计算广义线性混合模型的统计量的问题来回答,我相信任何有兴趣的人都需要阅读这样的事情。Bates 是R 包的原作者和 的合著者,也是一本关于混合模型的著名书籍的合著者,CV 将受益于在答案中包含文本,而不仅仅是指向的链接它。R2lme4nlme

当人们谈到“用于 GLMM 的 R2”时,我必须承认我有点紧张。线性模型的 R2 定义明确,并具有许多理想的属性。对于其他模型,可以定义不同的量来反映这些属性的一些但不是全部。但这并不是从获得具有线性模型的 R2 所具有的所有属性的数字的意义上计算 R2。通常有几种不同的方法可以定义这样的数量。特别是对于 GLM 和 GLMM,在您定义“解释的响应方差的比例”之前,您首先需要定义“响应方差”的含义。

关于什么构成 R2 或与应用于其他模型的线性模型相关的任何其他量的自由度的混淆来自于将公式与概念混淆。尽管公式是从模型推导出来的,但推导通常涉及相当复杂的数学。为了避免潜在的混淆推导和“切入正题”,更容易呈现公式。但公式不是概念。概括一个公式并不等同于概括这个概念。而这些公式在实践中几乎从未使用过,特别是对于广义线性模型、方差分析和随机效应分析。我有一个“元定理”,根据介绍性文本中给出的公式实际计算的唯一数量是样本均值。

看起来我是一个脾气暴躁的老人,也许我是,但危险在于人们期望“类似 R2”的量具有线性模型的 R2 的所有属性。它不能。没有办法将所有属性推广到像 GLMM 这样更复杂的模型。

我曾经在委员会审查博士论文提案。候选资格。该提议是检查我认为可以考虑为非线性回归模型计算 R2 以确定哪个是“最佳”的 9 种不同公式。当然,这将通过仅具有几个不同模型的模拟研究来完成,并且每个模型只有几组不同的参数值。我认为这是一个完全没有意义的练习的建议没有受到热烈欢迎。

浏览文献后,我发现了以下论文,它比较了计算值的几种不同方法,其中 (MVP) 方法等效于 Nakagawa 和 Schielzeth 提出的方法。R2R2

  • Lahuis, D 等人 (2014)解释了多级模型的方差度量。组织研究方法。

在此处输入图像描述

总体而言,大多数度量(公式、公式、 (OLS) 和 (MVP))在所有条件和模型中都表现出可接受的偏差、一致性和效率水平。此外,这些措施的平均偏差值差异很小。公式和公式在随机截距模型中的偏差最小,而公式和 (MVP) 在随机斜率模型中的偏差最小。在效率方面,公式和 (MVP) 在随机截距模型中具有最低的标准差值。 (MVP) 和 (OLS) 在随机斜率模型中具有最低的标准差。一般来说,公式不是一个有效的估计器。R2R2R2R2R2R2