回归系数不显着的拟合广义线性模型中的过度离散

机器算法验证 回归 统计学意义 广义线性模型 回归系数 过度分散
2022-03-17 05:06:12

过度分散是指数据比其模型假设的变化更大的现象。当所讨论的模型具有不可分割的均值和方差参数时,可能会发生过度离散。如果我理解正确,过度分散的模型会产生过于自信的回归系数估计。换句话说,我们可能会得出结论,这些系数在统计上是显着的,而实际上它们不应该如此。我的问题是,如果我的拟合系数在统计上不显着,那么处理过度离散有什么意义吗?如果我们已经过度自信并且没有观察到显着的影响,那么修复这种过度分散只会导致更不显着的影响,是这样吗?

2个回答

是的,这是真的。

只有两个常用的广义线性模型系列与过度离散的概念相关。当试验次数大于一时,这些是泊松回归或二项式回归。如果数据确实过度分散,那么从这些 glm 回归模型之一切换到允许过度分散的模型将导致相同假设检验的 p 值更大。

但请注意,数据也可能分散不足,在这种情况下,准泊松回归或准二项式回归将估计准分散度小于 1,因此可以提供比相应的泊松或二项式回归更小的 p 值,尤其是在观察数量很大的情况下。

另一方面,如果您使用混合模型来模拟过度离散,那么获得更小的 p 值是不可能的。常用的混合模型包括负二项式 glms 来模拟相对于 Poisson 的过度分散或 beta-二项式回归来模拟相对于二项式的过度分散。

只是为了添加@GordonSmyth 的答案,当您拟合拟泊松或拟二项式时,方差 - 协方差矩阵按色散值缩放。这意味着您的系数的标准误差乘以 sqrt(分散)。所以

例如,我们拟合泊松:

library(pscl)
fm_pois <- glm(art ~ ., data = bioChemists, family = poisson)
coefficients(summary(fm_pois))

               Estimate  Std. Error    z value     Pr(>|z|)
(Intercept)  0.30461683 0.102981443  2.9579779 3.096643e-03
femWomen    -0.22459423 0.054613488 -4.1124315 3.915137e-05
marMarried   0.15524338 0.061374395  2.5294487 1.142419e-02
kid5        -0.18488270 0.040126898 -4.6074506 4.076360e-06
phd          0.01282258 0.026397045  0.4857582 6.271386e-01
ment         0.02554275 0.002006073 12.7327095 3.890982e-37

还有一个准泊松:

fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson)
coefficients(summary(fm_qpois))
               Estimate  Std. Error    t value     Pr(>|t|)
(Intercept)  0.30461683 0.139272885  2.1871941 2.898252e-02
femWomen    -0.22459423 0.073859696 -3.0408225 2.426991e-03
marMarried   0.15524338 0.083003199  1.8703301 6.175917e-02
kid5        -0.18488270 0.054267922 -3.4068506 6.859925e-04
phd          0.01282258 0.035699564  0.3591803 7.195436e-01
ment         0.02554275 0.002713028  9.4148462 3.777939e-20

sqrt(summary(fm_qpois)$dispersion)
[1] 1.352408

您可以计算出 1.352408 * 泊松模型系数的标准误差等于准泊松系数的标准误差。

我能想到的一个例外是当你的过度分散是由零计数引起的,在这种情况下,如果你做一个零膨胀模型,一些估计可能会改变。