我在 R 中运行了一个 glm,在summary()
输出的底部附近,它指出
(Dispersion parameter for gaussian family taken to be 28.35031)
我在谷歌上翻了一下,得知色散参数是用来拟合标准误差的。我希望有人可以提供更多关于色散参数是什么以及应该如何解释的细节?
我在 R 中运行了一个 glm,在summary()
输出的底部附近,它指出
(Dispersion parameter for gaussian family taken to be 28.35031)
我在谷歌上翻了一下,得知色散参数是用来拟合标准误差的。我希望有人可以提供更多关于色散参数是什么以及应该如何解释的细节?
探索这一点的一种方法是尝试使用不同的工具拟合相同的模型,以下是一个示例:
> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)
Call:
lm(formula = Sepal.Length ~ ., data = iris)
Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673, Adjusted R-squared: 0.8627
F-statistic: 188.3 on 5 and 144 DF, p-value: < 2.2e-16
> summary(fit2)
Call:
glm(formula = Sepal.Length ~ ., data = iris)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.09414226)
Null deviance: 102.168 on 149 degrees of freedom
Residual deviance: 13.556 on 144 degrees of freedom
AIC: 79.116
Number of Fisher Scoring iterations: 2
> sqrt( 0.09414226 )
[1] 0.3068261
所以你可以看到线性模型的残余标准误差只是glm色散的平方根,换句话说,色散(对于高斯模型)与均方误差相同。
让我们推测一下数据中没有协变量信息的简单情况。说,你只有观察。
如果您使用正态分布对数据建模,您可能会这样写
,
然后尝试估计和,也许通过最大似然估计。
但是假设您的数据是计数数据,因此不是正态分布的。在这种情况下它甚至不是连续的,所以你可以使用泊松分布来代替:
。
但是,这里只有一个参数!单个参数和 lambda确定均值和方差。当您使用伯努利或二项分布时,也会发生这种情况。但是您的数据可能有更大或更小的差异,可能是因为观察结果不是真正的独立同分布,或者您选择的分布不够现实。
因此,人们添加分散参数以同时对均值和方差进行建模以获得额外的自由度。我想任何关于 GLM 的教科书都会给你更详细和数学的解释,但我相信动机很简单,就像这样。