机器算法验证 - 回归系数不显着的拟合广义线性模型中的过度离散 - 吾爱随笔录

回归系数不显着的拟合广义线性模型中的过度离散

机器算法验证回归统计学意义广义线性模型回归系数过度分散

2022-03-17 05:06:12

过度分散是指数据比其模型假设的变化更大的现象。当所讨论的模型具有不可分割的均值和方差参数时，可能会发生过度离散。如果我理解正确，过度分散的模型会产生过于自信的回归系数估计。换句话说，我们可能会得出结论，这些系数在统计上是显着的，而实际上它们不应该如此。我的问题是，如果我的拟合系数在统计上不显着，那么处理过度离散有什么意义吗？如果我们已经过度自信并且没有观察到显着的影响，那么修复这种过度分散只会导致更不显着的影响，是这样吗？

2个回答

是的，这是真的。

只有两个常用的广义线性模型系列与过度离散的概念相关。当试验次数大于一时，这些是泊松回归或二项式回归。如果数据确实过度分散，那么从这些 glm 回归模型之一切换到允许过度分散的模型将导致相同假设检验的 p 值更大。

但请注意，数据也可能分散不足，在这种情况下，准泊松回归或准二项式回归将估计准分散度小于 1，因此可以提供比相应的泊松或二项式回归更小的 p 值，尤其是在观察数量很大的情况下。

另一方面，如果您使用混合模型来模拟过度离散，那么获得更小的 p 值是不可能的。常用的混合模型包括负二项式 glms 来模拟相对于 Poisson 的过度分散或 beta-二项式回归来模拟相对于二项式的过度分散。

只是为了添加@GordonSmyth 的答案，当您拟合拟泊松或拟二项式时，方差 - 协方差矩阵按色散值缩放。这意味着您的系数的标准误差乘以 sqrt（分散）。所以

例如，我们拟合泊松：

library(pscl)
fm_pois <- glm(art ~ ., data = bioChemists, family = poisson)
coefficients(summary(fm_pois))

               Estimate  Std. Error    z value     Pr(>|z|)
(Intercept)  0.30461683 0.102981443  2.9579779 3.096643e-03
femWomen    -0.22459423 0.054613488 -4.1124315 3.915137e-05
marMarried   0.15524338 0.061374395  2.5294487 1.142419e-02
kid5        -0.18488270 0.040126898 -4.6074506 4.076360e-06
phd          0.01282258 0.026397045  0.4857582 6.271386e-01
ment         0.02554275 0.002006073 12.7327095 3.890982e-37

还有一个准泊松：

fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson)
coefficients(summary(fm_qpois))
               Estimate  Std. Error    t value     Pr(>|t|)
(Intercept)  0.30461683 0.139272885  2.1871941 2.898252e-02
femWomen    -0.22459423 0.073859696 -3.0408225 2.426991e-03
marMarried   0.15524338 0.083003199  1.8703301 6.175917e-02
kid5        -0.18488270 0.054267922 -3.4068506 6.859925e-04
phd          0.01282258 0.035699564  0.3591803 7.195436e-01
ment         0.02554275 0.002713028  9.4148462 3.777939e-20

sqrt(summary(fm_qpois)$dispersion)
[1] 1.352408

您可以计算出 1.352408 * 泊松模型系数的标准误差等于准泊松系数的标准误差。

我能想到的一个例外是当你的过度分散是由零计数引起的，在这种情况下，如果你做一个零膨胀模型，一些估计可能会改变。

其它你可能感兴趣的问题

上一篇使用混合模型的想法。使用所有可能类别的变量作为随机效应下一篇做什么ñ( x | μ ,σ2)N(x|μ,σ2)意思是？