机器算法验证 - GLM 输出中的色散参数 - 吾爱随笔录

GLM 输出中的色散参数

机器算法验证 r 广义线性模型

2022-03-12 06:08:38

我在 R 中运行了一个 glm，在summary()输出的底部附近，它指出

(Dispersion parameter for gaussian family taken to be 28.35031)

我在谷歌上翻了一下，得知色散参数是用来拟合标准误差的。我希望有人可以提供更多关于色散参数是什么以及应该如何解释的细节？

2个回答

探索这一点的一种方法是尝试使用不同的工具拟合相同的模型，以下是一个示例：

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

所以你可以看到线性模型的残余标准误差只是glm色散的平方根，换句话说，色散（对于高斯模型）与均方误差相同。

让我们推测一下数据中没有协变量信息的简单情况。说，你只有观察。 $Y_1, Y_2, \ldots, Y_n \in \mathbb{R}$

如果您使用正态分布对数据建模，您可能会这样写

$Y_i \sim \mathcal{N}(\mu, \sigma^2)$ ,

然后尝试估计和，也许通过最大似然估计。 $\mu$ $\sigma$

但是假设您的数据是计数数据，因此不是正态分布的。在这种情况下它甚至不是连续的，所以你可以使用泊松分布来代替：

$Y_i \sim Poisson(\lambda)$ 。

但是，这里只有一个参数！单个参数和 lambda确定均值和方差。当您使用伯努利或二项分布时，也会发生这种情况。但是您的数据可能有更大或更小的差异，可能是因为观察结果不是真正的独立同分布，或者您选择的分布不够现实。 $\lambda$ $\mathbb{E}[Y_i] = \lambda$ $Var[Y_i] = \lambda$

因此，人们添加分散参数以同时对均值和方差进行建模以获得额外的自由度。我想任何关于 GLM 的教科书都会给你更详细和数学的解释，但我相信动机很简单，就像这样。

其它你可能感兴趣的问题

上一篇randomForest 选择回归而不是分类下一篇重要性抽样产生的蒙特卡罗估计结果