首先让我介绍一些背景;我将在最后总结我的问题。
Beta 分布,由其平均值和参数化,有,其中是方差函数。
在 beta 回归中(例如,使用 R 中的 betareg 包),回归假设 beta 分布误差并估计固定效应和的值。
在 glm 回归中,可以定义方差函数为的“准”分布。所以这里的模型假设误差与 Beta 具有相同的方差函数。然后回归估计准分布的固定效应和“分散”。
我可能遗漏了一些重要的东西,但这两种方法似乎本质上是相同的,也许只是它们的估计方法不同。
我在 R 中尝试了这两种方法,回归一个名为“Similarity”的 DV,它在区间中:
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
两个模型的系数相似,标准误也相似。参数也类似:我假设 Dispersion 参数(由 glm 报告)和具有以下关系,在这种情况下它们分别是 10.6201 和 10.9254 .
但是,这些值都不相同。
这是因为这两种方法中唯一真正不同的是它们的估计程序吗?还是我缺少一些更根本的区别?另外,有什么理由比另一种方法更喜欢一种方法吗?