GEE:选择合适的工作相关结构

机器算法验证 广义估计方程
2022-01-20 20:26:42

我是一名流行病学家,试图了解 GEE 以便正确分析队列研究(使用带有对数链接的泊松回归来估计相对风险)。我有一些关于“工作相关性”的问题,我希望有更博学的人来澄清:

(1) 如果我对同一个人进行了多次测量,通常假设一个可交换结构是最合理的吗?(或者如果测量显示趋势,则为自回归)?独立性怎么样 - 是否有任何情况下可以假设同一个人的测量独立性?

(2) 是否有任何(相当简单的)方法可以通过检查数据来评估适当的结构?

(3) 我注意到,在选择独立结构时,我得到的点估计值(但标准误差更低)与运行简单泊松回归(使用 R、函数glm()geeglm()from package geepack)时相同。为什么会这样?我知道使用 GEE,您可以估计人口平均模型(与特定主题相反),因此您应该仅在线性回归情况下获得相同的点估计。

(4) 如果我的队列位于多个地点(但每个人进行一次测量),我应该选择独立的还是可交换的工作相关性,为什么?我的意思是,每个站点中的个人仍然相互独立,对吗?因此,例如,对于特定于主题的模型,我会将站点指定为随机效应。然而,对于 GEE,独立性和可交换性给出了不同的估计,我不确定哪一个在基本假设方面更好。

(5) GEE 能否处理 2 级层次聚类,即每个个体重复测量的多站点队列?如果是,我应该指定什么作为聚类变量,geeglm()如果假设第一级(站点)为“独立”,第二级(个人)为“可交换”或“自回归”,那么工作相关性应该是什么?

我知道这些问题很多,其中一些可能是相当基本的,但对我(也许还有其他新手?)来说仍然很难掌握。因此,非常感谢您的任何帮助,为了表明这一点,我开始了赏金活动。

4个回答
  1. 不必要。对于小集群、不平衡设计和不完整的集群内混杂因素调整,可交换相关性可能比独立 GEE 效率低下且相对偏倚。这些假设也可能相当强大。但是,当满足这些假设时,您可以通过可交换获得更有效的推理。我从来没有发现 AR-1 相关结构有意义的例子,因为在时间上平衡的测量是不常见的(我使用人类受试者数据)。

  2. 好吧,探索相关性很好,应该在数据分析中完成。但是,它真的不应该指导决策。您可以使用变异函数和 lorellograms 来可视化纵向和面板研究中的相关性。集群内相关性是集群内相关程度的一个很好的衡量标准。

  3. GEE 中的相关结构与混合模型不同,不会影响边际参数估计值(您正在使用 GEE 进行估计)。不过,它确实会影响标准误差估计。这与任何链接功能无关。GEE 中的链接功能是针对边缘模型的。

  4. 站点可能是无法测量的变化的来源,例如嘴里的牙齿或学区内的学生。这些数据中可能存在集群级别的混杂因素,例如蛀牙的遗传倾向或社区教育资金,因此,您将通过使用可交换的相关结构获得更好的标准误差估计。

  5. GEE 中边际效应的计算在不嵌套时很复杂,但可以做到嵌套很容易,你就照你说的做。

(1) 您可能需要某种自回归结构,这仅仅是因为我们预计距离较远的测量值的相关性低于距离较近的测量值。Exchangeable 会假设它们都是同等相关的。但与其他一切一样,这取决于。

(2) 我认为这种决定归结为考虑数据是如何生成的,而不是看它们的外观。

(4) 视情况而定。例如,在大多数情况下,住在学校里的孩子不应该被视为独立的。由于社会模式等原因,如果我对某所学校的某个孩子有所了解,那么我可能至少对学校中的其他孩子有所了解。我曾经使用 GEE 来研究一个出生队列中不同的社会和经济指标与肥胖患病率之间的关系,其中参与者嵌套在社区中。我使用了可交换的结构。你可以在这里找到这篇论文并查看一些参考文献,包括来自 Epi 期刊的 2 篇。

(5) 显然是这样(例如,见这个例子),但我不能帮助 R 规范这样做。

Zeger SL、Liang KY、Albert PS。纵向数据模型:广义估计方程方法。生物识别。1988;44:1049-60。

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. To GEE or not to GEE:比较估计函数和基于似然的方法来估计社区与健康之间的关联。流行病学。2009

Hanley JA、Negassa A、Edwardes MDB、Forrester JE。使用广义估计方程对相关数据进行统计分析:方向。我是流行病学杂志。2003;157:364。

(0) 一般评论:我在交叉验证上看到的大多数模型都太复杂了。尽可能简化。通常值得用 GEE 建模和混合模型来比较结果。
(1) 是的。选择可交换。我的明确答案是基于 GEE 最广为人知的好处:估计对所做假设的弹性。
如果您查看您所在领域的研究,您应该会看到 exch 是默认选项。这并不意味着它是最好的,但应该是第一个考虑的。在不详细了解您的数据的情况下,向 exch 提供建议将是最好的建议。
(2) 是的,有数据驱动的方法,例如“QIC”。这是一个 Stata 示例,但作为一个合理的选择被广泛接受,尽管在实践中很少使用:http://www.stata-journal.com/sjpdf.html?articlenum=st0126
(3)点估计永远不会完全相同(除非您使用独立相关结构),但通常相当接近。您可以找到许多比较简单/gee/混合效应模型估计的文章以了解这一点(https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf)大多数教科书也有一个表格或两个为此。对于独立的相关结构,您实际上是在运行具有稳健 SE 的泊松模型。因此,估计值将完全相同。SE 通常较大。但有时健壮的 SE 更小(即生命:如果有兴趣,谷歌会提供无痛解释)
(4)参见上面的(1)和(2)。
(5) 不。或者更好地说,如果你付出足够的努力,你可以做任何事情,但很少值得付出努力。

您正在使用错误的方法来做您正在做的事情,因为您不知道结构并且您的结果可能会令人困惑。请参阅杰米罗宾逊。你需要用很长时间。TMLE (mark van der laan) 或者是带有 iptw 权重的 gee。不考虑相关性确实低估了方差。试想,如果所有重复测量都是 100% 相关的,那么您实际上将获得更少的观察结果(对于您的 n 个受试者基本上只有 n 个),并且较小的 n 意味着更高的方差。