何时在泊松回归中使用稳健标准误?

机器算法验证 泊松分布 强大的
2022-03-07 08:19:34

我正在对计数数据使用泊松回归模型,并且想知道是否有理由使用稳健的标准误差进行参数估计?我特别担心,因为我的一些没有稳健的估计并不显着(例如,p = 0.13)但稳健的估计是显着的(p<0.01)。

在 SAS 中,这可以通过使用proc genmod(例如,repeated subject=patid;)中的重复语句来实现。我一直以http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm为例,它引用了 Cameron 和 Trivedi (2009) 的一篇论文来支持使用稳健的标准错误。

3个回答

一般来说,如果您怀疑您的错误是异方差的,您应该使用稳健的标准错误。当您不使用稳健的 SE 时,您的估计变得不显着这一事实表明(但不能证明)需要稳健的 SE!这些 SE 对广义线性模型中异方差性可能导致的偏差是“稳健的”。

但是,这种情况有点不同,因为您将它们分层在泊松回归之上。

泊松有一个众所周知的特性,即无论数据是否支持,它都会强制离散度等于平均值​​。在考虑稳健的标准误差之前,我会尝试一个负二项式回归,它不会受到这个问题的影响。有一个测试(见评论)来帮助确定标准误差的最终变化是否显着。

我不确定您所看到的变化(转向稳健的 SE 会缩小 CI)是否意味着分散不足,但似乎很有可能。看一下适当的模型(我认为是负二项式,但快速谷歌搜索也表明准泊松用于分散不足?),看看你在那个设置中得到了什么。

我将使用基于模型的分析与稳健的标准误差进行区分,将后者称为“GEE”,这实际上是一个可交换的定义。除了 Scortchi 的精彩解释:

GEE 在小样本(即 10-50 名受试者)中可能存在“偏差”:(Lipsitz、Laird 和 Harrington,1990;Emrich 和 Piedmonte,1992;Sharples 和 Breslow,1992;Lipsitz 等人,1994;Qu、Piedmonte 和Williams,1994 年;Gunsolley、Getchell 和 Chinchilli,1995 年;Sherman 和 le Cessie,1997 年。)当我说 GEE 有偏差时,我的意思是,由于细胞计数小或为零,标准误差估计可能是保守的或反保守的,取决于哪些拟合值表现出这种行为以及它们与回归模型的整体趋势的一致性程度。

通常,当正确指定参数模型时,您仍然可以从基于模型的 CI 中获得正确的标准误差估计,但使用 GEE 的全部意义在于适应那个非常大的“如果”。GEE 允许统计学家仅仅为数据指定一个工作概率模型,并且参数(而不是在严格的参数框架中解释)被认为是一种“筛子”,它可以生成可重现的值,而不管底层的未知数据如何生成机制。这是半参数分析的核心和灵魂,GEE 就是一个例子。

GEE 还处理数据中未测量的协变源,即使指定了独立的相关矩阵。这是因为使用了经验而不是基于模型的协方差矩阵。例如,在 Poisson 建模中,您可能对从各种河流中采样的鲑鱼的生育率感兴趣。从雌鱼身上收获的卵子可能具有潜在的泊松分布,但由共享遗传性和特定溪流中可用资源组成的遗传变异可能使这些溪流中的鱼比其他溪流中的鱼更相似。只要抽样率与其人口比例一致(或以其他方式分层),GEE 将给出正确的人口标准误差估计。

您对等色散的零值进行了测试。这是一个简单的辅助 OLS 回归。Cameron 和 Trivedi的第 670 页上有描述。对于大的过度分散,标准误差非常缩小,所以当过度分散时,我会非常警惕任何取决于非鲁棒 VCE 的结果。如果分散不足,则相反,这听起来就像您所处的场景。