过度分散是指数据比其模型假设的变化更大的现象。当所讨论的模型具有不可分割的均值和方差参数时,可能会发生过度离散。如果我理解正确,过度分散的模型会产生过于自信的回归系数估计。换句话说,我们可能会得出结论,这些系数在统计上是显着的,而实际上它们不应该如此。我的问题是,如果我的拟合系数在统计上不显着,那么处理过度离散有什么意义吗?如果我们已经过度自信并且没有观察到显着的影响,那么修复这种过度分散只会导致更不显着的影响,是这样吗?
回归系数不显着的拟合广义线性模型中的过度离散
机器算法验证
回归
统计学意义
广义线性模型
回归系数
过度分散
2022-03-17 05:06:12
2个回答
是的,这是真的。
只有两个常用的广义线性模型系列与过度离散的概念相关。当试验次数大于一时,这些是泊松回归或二项式回归。如果数据确实过度分散,那么从这些 glm 回归模型之一切换到允许过度分散的模型将导致相同假设检验的 p 值更大。
但请注意,数据也可能分散不足,在这种情况下,准泊松回归或准二项式回归将估计准分散度小于 1,因此可以提供比相应的泊松或二项式回归更小的 p 值,尤其是在观察数量很大的情况下。
另一方面,如果您使用混合模型来模拟过度离散,那么获得更小的 p 值是不可能的。常用的混合模型包括负二项式 glms 来模拟相对于 Poisson 的过度分散或 beta-二项式回归来模拟相对于二项式的过度分散。
只是为了添加@GordonSmyth 的答案,当您拟合拟泊松或拟二项式时,方差 - 协方差矩阵按色散值缩放。这意味着您的系数的标准误差乘以 sqrt(分散)。所以
例如,我们拟合泊松:
library(pscl)
fm_pois <- glm(art ~ ., data = bioChemists, family = poisson)
coefficients(summary(fm_pois))
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.30461683 0.102981443 2.9579779 3.096643e-03
femWomen -0.22459423 0.054613488 -4.1124315 3.915137e-05
marMarried 0.15524338 0.061374395 2.5294487 1.142419e-02
kid5 -0.18488270 0.040126898 -4.6074506 4.076360e-06
phd 0.01282258 0.026397045 0.4857582 6.271386e-01
ment 0.02554275 0.002006073 12.7327095 3.890982e-37
还有一个准泊松:
fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson)
coefficients(summary(fm_qpois))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30461683 0.139272885 2.1871941 2.898252e-02
femWomen -0.22459423 0.073859696 -3.0408225 2.426991e-03
marMarried 0.15524338 0.083003199 1.8703301 6.175917e-02
kid5 -0.18488270 0.054267922 -3.4068506 6.859925e-04
phd 0.01282258 0.035699564 0.3591803 7.195436e-01
ment 0.02554275 0.002713028 9.4148462 3.777939e-20
sqrt(summary(fm_qpois)$dispersion)
[1] 1.352408
您可以计算出 1.352408 * 泊松模型系数的标准误差等于准泊松系数的标准误差。
我能想到的一个例外是当你的过度分散是由零计数引起的,在这种情况下,如果你做一个零膨胀模型,一些估计可能会改变。