GLM 中的过度分散测试真的“有用”吗?

机器算法验证 广义线性模型 泊松回归 过度分散 准可能性
2022-01-30 14:52:27

每当我们使用限制响应变量方差的模型时,就会出现 GLM 中的“过度分散”现象,并且数据表现出比模型限制允许的更大的方差。这通常在使用 Poisson GLM 对计数数据进行建模时发生,并且可以通过众所周知的测试来诊断。如果测试表明存在统计上显着的过度分散证据,那么我们通常通过使用更广泛的分布族来推广模型,从而将方差参数从原始模型下的限制中解放出来。在泊松 GLM 的情况下,通常将其推广到负二项式或准泊松 GLM。

这种情况是怀有明显的反对意见的。为什么要从泊松 GLM 开始呢?可以直接从具有(相对)自由方差参数的更广泛分布形式开始,并允许方差参数适合数据,完全忽略过度分散测试。在其他情况下,当我们进行数据分析时,我们几乎总是使用允许至少前两个时刻自由的分布形式,那么为什么要在这里例外呢?

我的问题:是否有充分的理由从固定方差的分布(例如,泊松分布)开始,然后执行过度分散测试?这个过程与完全跳过这个练习并直接进入更一般的模型(例如,负二项式、准泊松等)相比如何?换句话说,为什么不总是使用具有自由方差参数的分布呢?

2个回答

原则上,我实际上同意 99% 的情况下,最好只使用更灵活的模型。话虽如此,这里有两个半的论据来说明为什么你可能不这样做。

(1) 不太灵活意味着更有效的估计。鉴于方差参数往往不如均值参数稳定,您对固定均值-方差关系的假设可能会更加稳定标准误差。

(2) 模型检查。我曾与物理学家合作过,他们相信由于理论物理学,泊松分布可以描述各种测量值。如果我们拒绝均值 = 方差的假设,我们就有反对泊松分布假设的证据。正如@GordonSmyth 在评论中指出的那样,如果您有理由相信给定的测量值应该遵循泊松分布,如果您有过度分散的证据,那么您就有证据表明您遗漏了重要因素。

(2.5) 合理分配。虽然负二项式回归来自有效的统计分布,但我的理解是准泊松不是。 for,则无法真正模拟计数数据对于某些用例来说,这可能很烦人。同样,您不能使用概率来测试异常值等。Var[y]=αE[y]α1

虽然这是我自己的问题,但我也将发布我自己的两分钱作为答案,以便我们增加关于这个问题的观点数量。这里的问题是最初将单参数分布拟合到数据是否明智。当您使用单参数分布(例如 Poisson GLM 或具有固定试验参数的二项式 GLM)时,方差不是自由参数,而是被约束为均值的某个函数。这意味着在您不确定方差是否遵循该分布的结构的任何情况下,都不建议将单参数分布拟合到数据。


将单参数分布拟合到数据几乎总是一个坏主意:数据通常比建议的模型所表明的更混乱,即使有理论上的理由相信特定的单参数模型可能会获得,但数据通常是这样的实际上来自一个参数分布的混合,具有一系列参数值。这通常等同于更广泛的模型,例如允许更大的方差自由度的双参数分布。如下所述,在计数数据的情况下,泊松 GLM 也是如此。

如问题所述,在大多数统计应用中,标准做法是使用至少允许前两个矩自由变化的分布形式。这确保了拟合模型允许数据指示推断的均值和方差,而不是让这些受到模型的人为约束。拥有第二个参数只会在模型中损失一个自由度,与允许从数据中估计方差的好处相比,这是一个很小的损失。当然,可以扩展此推理并添加第三个参数以允许拟合偏度,第四个参数以允许拟合峰度等。


除了一些极小的例外,泊松 GLM 是一个糟糕的模型:根据我的经验,拟合泊松分布来计算数据几乎总是一个坏主意。对于计数数据,数据中的方差相对于泊松分布“过度分散”是非常常见的。即使在理论指向泊松分布的情况下,通常最好的模型是泊松分布的混合,其中方差成为自由参数。实际上,在计数数据的情况下,负二项分布是泊松混合,其速率参数具有伽马分布,因此即使有理论上的理由认为计数是根据泊松分布的过程到达的,但通常存在“过度分散”并且负二项式分布拟合得更好的情况。

拟合泊松 GLM 来计算数据,然后进行统计测试以检查“过度分散”的做法是不合时宜的,而且几乎不是一个好的做法。在其他形式的统计分析中,我们不是从一个二参数分布开始,任意选择一个方差限制,然后测试这个限制以试图从分布中消除一个参数。通过这种方式,我们实际上创建了一个笨拙的混合过程,包括用于模型选择的初始假设检验,然后是实际模型(泊松或更广泛的分布)。在许多情况下都表明,这种从初始模型选择测试创建混合模型的做法会导致整体模型不佳。

使用类似混合方法的类似情况是均值差的 T 检验。过去统计课程会建议首先使用Levene 的测试(或者甚至只是一些更糟糕的“经验法则”)来检查两个总体之间的方差是否相等,然后如果数据“通过”这个测试,你会使用假设方差相等的学生 T 检验,如果数据“未通过”检验,那么您将改用 Welch 的 T 检验。这实际上是一个非常糟糕的程序(例如,参见此处此处)。最好只使用后一种检验,它不对方差做任何假设,而不是创建一个笨拙的复合检验,将初步假设检验挤在一起,然后用它来选择模型。

对于计数数据,您通常会通过拟合二参数模型(例如负二项式或准泊松模型)获得良好的初始结果。(注意后者不是真实分布,但它仍然给出了一个合理的双参数模型。)如果需要任何进一步的概括,通常是添加零膨胀,其中有过多的零在数据中。限制为 Poisson GLM 是一种人为且毫无意义的模型选择,并且通过测试过度分散并没有变得更好。


好的,现在这里有一些小例外:上述唯一真正的例外是两种情况:

(1)你有极强的先验理论理由相信单参数分布的假设得到满足,部分分析是用数据检验这个理论模型;或者

(2) 出于其他(奇怪的)原因,您分析的目的是对数据的方差进行假设检验,因此您实际上希望将这个方差限制在这个假设的限制范围内,然后检验这个假设。

这些情况非常罕见。只有当对数据生成机制有很强的先验理论知识时,它们才会出现,并且分析的目的是测试这个基础理论。这可能是在严格控制的条件下(例如,在物理学中)生成数据的极其有限范围的应用中的情况。