GLM 和 GEE 有什么区别?

机器算法验证 广义线性模型 广义估计方程
2022-03-29 12:20:42

具有包括主题和时间作为协变量的二元响应变量的 GLM 模型(逻辑回归)与考虑多个时间点测量值之间相关性的类似 GEE 模型之间有什么区别?

我的 GLM 看起来像:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

具有logit链接功能。

我正在寻找一个简单的(针对社会科学家)解释,说明两种模型中时间如何以及为何被区别对待,以及对解释的影响。

1个回答

那里可能有更好、更详细的答案,但我可以给你一些简单、快速的想法。您似乎在谈论使用广义线性模型(例如,典型的逻辑回归)来拟合从多个时间点从某些受试者收集的数据。乍一看,我发现这种方法有两个明显的问题。

首先,该模型假设您的数据在给定协变量的情况下是独立的(也就是说,在为每个受试者考虑了一个虚拟代码之后,类似于一个单独的截距项,以及对每个人都相等的线性时间趋势)。这不太可能是真的。相反,几乎肯定会存在自相关,例如,同一个人的两个观察值在时间上更接近将比两个观察值更相似,即使在考虑了时间之后也是如此(尽管如果您还包括交互,它们很可能是独立的subject ID x time——即每个人的独特时间趋势——但这会加剧下一个问题。)

其次,你将消耗大量的自由度来估计每个参与者的参数。您可能只剩下相对较少的自由度来尝试准确估计您感兴趣的参数(当然,这取决于您每人有多少测量值)。

具有讽刺意味的是,第一个问题意味着您的置信区间太窄,而第二​​个问题意味着您的 CI 将比您没有浪费大部分自由度时要宽得多。但是,我不会指望这两个相互平衡。对于它的价值,我相信您的参数估计将是公正的(尽管我在这里可能错了)。

在这种情况下,使用广义估计方程是合适的。当您使用 GEE 拟合模型时,您指定了一个相关结构(例如 AR(1)),并且您的数据独立依赖于您的协变量和您指定的相关矩阵是非常合理此外,GEE 估计总体平均关联,因此您无需为每个参与者消耗一定的自由度——本质上您是在对他们进行平均。

至于解释,据我所知,在这两种情况下都是一样的:鉴于其他因素保持不变,X3 的一个单位变化与“成功”对数几率的 B3 变化有关.