的准 glm 有什么区别?μ ( 1 - μ )μ(1−μ)

机器算法验证 广义线性模型 lme4-nlme 二项分布 贝塔回归 准可能性
2022-03-19 01:13:06

首先让我介绍一些背景;我将在最后总结我的问题。

Beta 分布,由其平均值参数化,有,其中是方差函数。μϕVar(Y)=V(μ)/(ϕ+1)V(μ)=μ(1μ)

在 beta 回归中(例如,使用 R 中的 betareg 包),回归假设 beta 分布误差并估计固定效应和的值。ϕ

在 glm 回归中,可以定义方差函数为的“准”分布。所以这里的模型假设误差与 Beta 具有相同的方差函数。然后回归估计准分布的固定效应和“分散”。μ(1μ)

我可能遗漏了一些重要的东西,但这两种方法似乎本质上是相同的,也许只是它们的估计方法不同。

我在 R 中尝试了这两种方法,回归一个名为“Similarity”的 DV,它在区间中:(0,1)

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

两个模型的系数相似,标准误也相似。参数也类似:我假设 Dispersion 参数(由 glm 报告)和具有以下关系,在这种情况下它们分别是 10.6201 和 10.9254 .ϕϕϕ=1/Dispersion1

但是,这些值都不相同。

这是因为这两种方法中唯一真正不同的是它们的估计程序吗?还是我缺少一些更根本的区别?另外,有什么理由比另一种方法更喜欢一种方法吗?

1个回答

您是正确的,均值和方差函数具有相同的形式。

这表明在非常大的样本中,只要您没有真正接近 1 或 0 的观察值,它们就应该倾向于给出非常相似的答案,因为在这种情况下,观察值将具有相似的相对权重。

但是在一些连续比例接近边界的较小样本中,差异可能会变得更大,因为两种方法给出的相对权重会不同;如果获得不同权重的点也相对有影响(在 x 空间中更极端),则在某些情况下差异可能会变得很大。

在 beta 回归中,您将通过 ML 进行估计,并且在拟二项式模型的情况下 - 至少在 R 中估计了一个,请注意帮助中的以下评论:

拟二项式和拟泊松族与二项式和泊松族的不同之处仅在于色散参数不固定为 1,因此它们可以模拟过度色散。对于二项式情况,请参见 McCullagh 和 Nelder (1989, pp. 124-8)。尽管他们表明(在某些限制下)存在与准二项式模型中的均值成正比的方差模型,但请注意 glm 不计算该模型中的最大似然估计。S 的行为更接近准变体。

我认为在 betareg 中您可以获得值,对于 GLM,您也可以获得,因此在两个拟合模型中,您可以比较每个观察值的相对影响(/“权重”)对其自身拟合值的近似值(因为影响比率的其他组成部分应该取消,或者几乎取消)。这应该可以快速了解两种方法对哪些观察结果的看法最不同。[人们可能会更准确地做到这一点,具体做法是逐个调整观察结果并查看每单位值变化的拟合变化]hii

请注意,betareg 小插图在第 2 节末尾对这些模型之间的联系进行了一些讨论。