beta回归和glm二项式的意义

机器算法验证 r 统计学意义 广义线性模型 二项分布 贝塔回归
2022-03-29 09:20:10

在使用 betareg R 包执行 betaregression 时,我注意到我的模型中的项通常很重要,即使样本量非常小。我使用带有二项式族和 logit 链接函数的 glm 尝试了相同的模型,我得到了非常相似的效果大小但不重要的术语。

有人可以解释我应该如何解释这个吗?这两个模型是否以不同的方式测试显着性?

注意:在我的例子中,响应变量是一个比例,因此,尽管极不可能,它甚至可以取值 0 和 1。

library(betareg)

Y=c(0.5283019, 0.4845361, 0.4974874, 0.6884735, 0.5967742, 0.6835443, 0.4152047, 0.4949495,
  0.6478873, 0.7695853, 0.4764398, 0.5780591, 0.5689655)
X=c(0.3616452, -0.4931525,  0.7890441,  0.7890441, -0.9205514,  0.7890441, -0.9205514,
 -0.9205514,  1.2164429,  1.2164429, -1.3479503, -1.3479503,  0.7890441)

summary(glm(Y~X, family=binomial('logit')))
summary(betareg(Y~X))
1个回答

二项式用于对伯努利变量(即二元)或二项式变量(即来自一定数量的独立试验的成功次数)进行建模。因此,这不应该直接应用于计算的速率(成功除以试验),而是glm()希望您提供一个包含成功和失败的矩阵。因此,您在glm()上面的调用会产生警告:

Warning message:
In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

另一方面,beta 回归模型适用于只有直接率与已知数量的独立试验的成功率不对应的情况。它使用不同的可能性,因此可能导致不同的结果。具体来说,它有一个额外的精度参数,该参数与观测值的方差有关。

因此,如果您的上述比例来自已知数量的独立试验,则提供此信息并使用二项式 GLM。否则你可以考虑beta回归。

补充说明:由于您Y上面直接提供比例,二项式可能不适合。具体来说,观测值的方差将被高估。如果您使用带有附加分散参数的准二项式,该模型仍然不会真正合适,但更接近 beta 回归结果。

R> summary(betareg(Y ~ X))

Call:
betareg(formula = Y ~ X)

Standardized weighted residuals 2:
    Min      1Q  Median      3Q     Max 
-1.7480 -0.8042 -0.1105  0.8864  1.8896 

Coefficients (mean model with logit link):
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.29444    0.08715   3.378 0.000729 ***
X            0.27270    0.09068   3.007 0.002637 ** 

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)   
(phi)    41.06      15.92   2.579   0.0099 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood: 15.15 on 3 Df
Pseudo R-squared: 0.4149
Number of iterations: 34 (BFGS) + 2 (Fisher scoring) 

R> summary(glm(Y ~ X, family = quasibinomial))

Call:
glm(formula = Y ~ X, family = quasibinomial)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.25696  -0.11263  -0.01107   0.13491   0.25792  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.29284    0.09523   3.075   0.0106 *
X            0.27078    0.09910   2.732   0.0195 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for quasibinomial family taken to be 0.02836306)

    Null deviance: 0.52867  on 12  degrees of freedom
Residual deviance: 0.31489  on 11  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 3