GLMER 抽样随机效应

机器算法验证 r 广义线性模型 lme4-nlme 模型平均
2022-04-17 13:08:14

我有一个通过 lme4 的 glmer 函数计算的模型 M,具有随机效应(“客户 ID”)和每个客户 ID 的固定效应。我的数据集非常大,所以我想选择一个客户 ID 的样本,计算相应的固定和随机效应系数,然后使用这个模型来估计其他尚未采样的客户 ID 的随机效应。

我的主要问题是,我可以使用 R 中的哪些技术或包来验证我的模型?换句话说,我想在计算数据集其余部分的随机效应之前确保我的固定效应估计足够好。

一般来说,有哪些技术可以拆分数据集并在每个子集上进行广义线性模型,最后将模型组合起来?

我将真诚地感谢参考。我能找到的最好的就是这个

1个回答

考虑随机效应的一种方式(另见这个答案)是它们适用于从人口中随机抽取的群体。因此,如果您研究不同学校的学生表现,您可以将学校视为具有每个学校估计参数的固定效应,或者视为随机效应并对学校的整体影响感兴趣,这可以通过具有自身平均值的统计分布来描述,并且标准差,其中个别学校是该分布的样本。这意味着,如果您有兴趣在给定人口中的一些随机样本的情况下估计参与者的随机效应,那么这似乎与思考随机效应描述的一般方式一致。

这里唯一的问题是您的样本在多大程度上反映了感兴趣的人群。现在,如果您从数据集中采样,那么您可以完全控制采样过程。在大多数情况下,从您的总体中随机抽样案例应该足以让您的样本具有代表性,只要样本足够大(多大足够大是一个不同的问题,您必须问自己)。但是,您必须记住,具有层次结构的数据抽样可能比简单的随机抽样案例更复杂。

关于验证你的模型和关于这个主题的文献,我会向你推荐 Gelman 和 Hill (2006) 的一本书。本书描述了线性回归、多级模型和贝叶斯层次模型。作者描述了几种验证模型的方法,包括从贝叶斯统计中借用的称为后验预测检查的方法(参见 Kruschke,2013 年)。关于后验预测检查的想法很简单:您将模型的后验分布与真实数据进行比较,以检查它是否相似以及它们在哪里不一致。在非贝叶斯分析中,您没有任何后验分布,因此您可以使用模拟获得它(lme4库有simulate功能)。模拟的目的是在拟合模型下产生假数据,因此可以将这些数据与真实数据进行比较。通过使用汇总统计数据(例如平均值、中值、方差、分位数),可以直观地比较这种模拟的结果(例如直方图)。另请注意,由于您可以从总体中获取其他样本,因此您始终可以比较(a)您的样本分布与其他样本的分布,(b)拟合模型的后验分布与其他样本中感兴趣的变量的分布。您不应忘记通用模型诊断,但这已在此线程中进行了描述(另请参见 Bates,2010 和 Bolker 等人 2008)。

组合模型(模型平均,参见 Buckland、Burnham 和 Augustin,1997 年)是总是可以做到并且经常会做到的事情如果您对预测感兴趣,那么平均参数或来自不同模型的预测应该比单独的任何单个预测产生更好的预测(就误差而言),并且应该比单个预测更稳健。您可以在 Johnson 和 Omland (2004) 和 Bolker 等人 (2008) 的论文中找到一些关于模型平均的简要信息,以及 Zhang、Zou 和 Liang (2014) 的更详细描述,他们建议使用 AIC 等信息标准来创建用于平均的权重(模型提供的信息越多,其权重就越大,此处类似示例)。对于平均,k-th 模型重量wk是使用其 AIC 值计算的Ik并归一化,因此权重总和为1

wk=exp(Ik/2)i=1Kexp(Ii/2)

在您的情况下,从您的总体中抽取样本,估计您的模型,然后使用此模型对来自另一个样本的数据进行预测,即使用交叉验证坚持样本可能就足够了。如果您的模型似乎很不适合保留样本数据,那么您始终可以对模型进行更改(或为训练模型采用更大的样本)并评估另一个保留样本的结果(最好采用不同的样本而不是使用以前的样本,这样不要得到过拟合模型)。这种方法很容易,计算量不大,方法论清晰。对保留样本进行预测将使您能够估计模型误差。


Gelman, A. 和 Hill, J. (2006)。使用回归和多级/分层模型进行数据分析。剑桥大学出版社。

克鲁施克,JK(2013 年)。后验预测检查可以而且应该是贝叶斯:评论 Gelman 和 Shalizi,“贝叶斯统计的哲学和实践”。 英国数学与统计心理学杂志,66(1),45-56。

贝茨,DM(2010)。lme4:使用 R 进行混合效果建模。(未发布。)

Bolker, BM, Brooks, ME, Clark, CJ, Geange, SW, Poulsen, JR, Stevens, MHH, & White, JSS (2009)。广义线性混合模型:生态学和进化的实用指南。生态与进化的趋势,24 (3), 127-135

约翰逊,JB 和奥姆兰,堪萨斯州(2004 年)。生态与进化中的模型选择。 生态与进化趋势,19 (2), 101-108。

Zhang, X., Zou, G., & Liang, H. (2014)。线性混合效应模型中的模型平均和权重选择。Biometrika, 101 (1), 205-218。

Buckland, ST, Burnham, KP 和 Augustin, NH (1997)。模型选择:推理的一个组成部分。 生物识别技术, 603-618。