多站点研究的混合模型与汇集标准误差 - 为什么混合模型效率更高?

机器算法验证 时间序列 混合模式
2022-01-23 06:05:15

我有一个数据集,其中包含来自少数几个站点的一系列“断棒”月度病例数。我试图从两种不同的技术中得到一个单一的总结估计:

技术 1:使用具有 0/1 指标变量的 Poisson GLM 拟合“断棒”,并使用时间和时间^2 变量来控制时间趋势。该 0/1 指示变量的估计值和 SE 使用非常直接的矩量技术上下方法进行合并,或者使用 R 中的 tlnise 包来获得“贝叶斯”估计值。这与 Peng 和 Dominici 对空气污染数据所做的类似,但站点较少(大约十几个)。

技术 2:放弃一些针对时间趋势的特定于站点的控制,并使用线性混合模型。特别:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

我的问题涉及来自这些估计的标准误差。技术 1 的标准误差实际上是使用每周而不是每月的时间设置,因此应该具有更高的精度,对于矩量法的估计标准误差约为 0.206,对于 tlnise 的估计标准误差约为 0.306。

lmer 方法给出的标准误差约为 0.09。效果估计值相当接近,因此它们似乎并不只是将不同的汇总估计归零,因为混合模型的效率要高得多。

这是合理的预期吗?如果是这样,为什么混合模型效率更高?这是普遍现象,还是该模型的特定结果?

1个回答

我知道这是一个老问题,但它相对流行并且有一个简单的答案,所以希望它对未来的其他人有所帮助。如需更深入的了解,请查看 Christoph Lippert 的线性混合模型课程,该课程在此处在全基因组关联研究的背景下对其进行检查。具体参见第 5 讲

混合模型工作得更好的原因是它旨在准确考虑您要控制的内容:人口结构。您研究中的“人群”是不同的站点,例如,使用相同协议的略有不同但一致的实现。此外,如果您的研究对象是人,则来自不同站点的人比来自同一站点的人​​更不可能相关,因此血液相关性也可能起作用。

与我们有的标准最大似然线性模型相反,线性混合模型添加了一个称为核矩阵的附加矩阵,它估计了个人,并拟合“随机效应”,这样相似的个体就会有相似的随机效应。这产生了模型N(Y|Xβ,σ2)KN(Y|Xβ+Zu,σ2I+σg2K)

因为您正试图明确控制人口结构,所以线性混合模型优于其他回归技术也就不足为奇了。