具有可交换工作协方差的 GEE 与假设独立性并使用 Huber-White 标准错误?

机器算法验证 强大的 广义估计方程
2022-04-04 15:26:53

我正在分析一个包含 13000 名学生的数据集。学生按学校/年级分组。ICC(班内相关系数)表明同一学校的学生是相关的。因此,我会考虑这种集群效应。一种方法是运行线性回归并在此基础上运行稳健的方差估计器,以防止出现有偏差的估计。我们可以使用三明治估计器考虑聚类效应吗?. 我认为我们不能,因为 epsilon^2 矩阵仍然是对角矩阵。我认为我们应该做的是为同一所学校的学生运行具有可交换 varcov 矩阵的 GEE 模型,然后我们应该在 GEE 模型之上运行健壮的 varcov。

无论如何,假设三明治估计器本身可以解释学校聚类效应,我已经拟合了两个独立的 GEE 模型,一个带有可交换 varcov 矩阵,另一个带有鲁棒方差估计器(也称为 Huber-White、Sandwich Estimator 或经验方差估计)。关键是在两个模型下,每个协变量我得到相同的估计方差,但我的 GEE 可交换估计导致更大的 beta 估计也具有统计显着性,而类似的 beta 协变量在具有稳健 varcov 估计的 GEE 中不显着。我想知道为什么会这样?我使用 SAS 9.3 来适应我的模型(proc GENMOD):

交换:

repeated subject = SCHIID/type = EXCH;

经验估计:

repeated subject = SCHIID/ covb; 
1个回答

一种方法是运行线性回归并在此基础上运行稳健的方差估计器,以防止出现有偏差的估计

这里重要的一点是,拥有大量相关数据不会使您在线性模型中的估计产生偏差——它会导致标准误差膨胀。在非线性模型(例如逻辑回归)中,您可能会得到有偏估计,因为总体平均效应通常不同于个体特定效应,而线性模型则不是这种情况。有关此区别的更多信息在此答案中

我们可以使用三明治估计器考虑聚类效应吗?

从标题中,我假设您正在谈论使用Huber White 三明治标准误差作为置信区间和值。这些确实施加了对角协方差矩阵,但对可能不同的对角线条目具有鲁棒性 - 因此,它们最初是在您的错误中可能存在异方差时使用的,这意味着非常数的误差方差。但是,使用 Huber-White 标准误差的轻微修改,其中三明治的“肉”被替换为集群内协方差矩阵的经验估计(仍称为 Huber-White 标准误差)提供了对非- 集群内的独立性(但不是集群之间的独立性!) - 这种修改在 2006 年的一篇论文中得到了非常清楚的描述p美国统计学家呼吁大卫弗里德曼所谓的“Huber Sandwich Estimator”和“Robust Standard Errors”

这个过程对集群内的非独立性具有鲁棒性,即使集群内存在相关性,它们仍会为您提供渐近无偏的推断(即置信水平和值将是正确的)。我怀疑这就是您标记为“经验估计器”代码的代码正在做的事情。 p

我已经安装了两个独立的 GEE 模型,一个带有可交换的 varcov 矩阵,另一个带有鲁棒方差估计器(也称为 Huber-White、Sandwich Estimator 或经验方差估计器)。关键是在两个模型下,每个协变量我得到相同的估计方差,但我的 GEE 可交换估计导致更大的 beta 估计也具有统计显着性,而类似的 beta 协变量在具有稳健 varcov 估计的 GEE 中不显着。我想知道为什么会这样?

一般来说,GEE 模型求解方程

i=1nμiβV(α)1(yiμi)=0

作为回归系数的函数,,其中是在指定模型下给定预测变量的集群响应是集群的元素的“工作”协方差矩阵。(注意因为我们正在处理线性模型,但 GEE 可以更普遍地使用链接函数,因此βμi=xiβiyixiV(α)1iμi=xiβμi=g(xiβ))

这里的一个关键点是,当你改变工作协方差时,你改变了估计方程,因此解决它的将是不同的β例如,如果在对角线下方是并且对角线并且就像这里所做的那样,那么 GEE 估计量是最小二乘估计量,它不会在可交换情况下求解该方程. 因此,您得到不同的参数估计也就不足为奇了。您得到相同的标准错误可能是一个巧合。Vσ20μi=xiβ

在您的情况下,我建议报告使用可交换协方差矩阵的结果。尽管即使您错误地指定了相关结构,基于 GEE 的推理也能保持一致,但众所周知,当您使用更合适的协方差结构时,如果您有证据表明在一个类别中存在较大的类内相关性,则 GEE 估计器会更有效。学校,那么可交换相关性可能会提供更接近真实关联结构的近似值。