我是一名流行病学家,试图了解 GEE 以便正确分析队列研究(使用带有对数链接的泊松回归来估计相对风险)。我有一些关于“工作相关性”的问题,我希望有更博学的人来澄清:
(1) 如果我对同一个人进行了多次测量,通常假设一个可交换结构是最合理的吗?(或者如果测量显示趋势,则为自回归)?独立性怎么样 - 是否有任何情况下可以假设同一个人的测量独立性?
(2) 是否有任何(相当简单的)方法可以通过检查数据来评估适当的结构?
(3) 我注意到,在选择独立结构时,我得到的点估计值(但标准误差更低)与运行简单泊松回归(使用 R、函数glm()
和geeglm()
from package geepack
)时相同。为什么会这样?我知道使用 GEE,您可以估计人口平均模型(与特定主题相反),因此您应该仅在线性回归情况下获得相同的点估计。
(4) 如果我的队列位于多个地点(但每个人进行一次测量),我应该选择独立的还是可交换的工作相关性,为什么?我的意思是,每个站点中的个人仍然相互独立,对吗?因此,例如,对于特定于主题的模型,我会将站点指定为随机效应。然而,对于 GEE,独立性和可交换性给出了不同的估计,我不确定哪一个在基本假设方面更好。
(5) GEE 能否处理 2 级层次聚类,即每个个体重复测量的多站点队列?如果是,我应该指定什么作为聚类变量,geeglm()
如果假设第一级(站点)为“独立”,第二级(个人)为“可交换”或“自回归”,那么工作相关性应该是什么?
我知道这些问题很多,其中一些可能是相当基本的,但对我(也许还有其他新手?)来说仍然很难掌握。因此,非常感谢您的任何帮助,为了表明这一点,我开始了赏金活动。