为什么不将 Beta/Dirichlet 回归视为广义线性模型?

机器算法验证 广义线性模型 贝塔回归 狄利克雷回归
2022-02-05 23:25:31

betareg前提是来自 R package 1的小插图的引用

此外,该模型与广义线性模型(GLMs;McCullagh 和 Nelder 1989)共享一些属性(例如线性预测器、链接函数、色散参数),但它不是该框架的特例(甚至对于固定色散也不适用) )

这个答案也暗示了一个事实:

[...] 当响应变量分布为 Beta 时,这是一种合适的回归模型。您可以将其视为 类似于广义线性模型。这正是您正在寻找的[...](强调我的)

问题标题说明了一切:为什么不将 Beta/Dirichlet 回归视为广义线性模型(不是)?


据我所知,广义线性模型定义了基于对因变量的期望以独立变量为条件的模型。

f是映射期望的链接函数,是概率分布,是结果,是预测变量,是线性参数,是方差。gYXβσ2

f(E(YX))g(βX,Iσ2)

不同的 GLM 强加(或放松)均值和方差之间的关系,但必须是指数族中的概率分布,如果我没记错的话,这是一个理想的属性,应该可以提高估计的鲁棒性。不过,Beta 和 Dirichlet 分布是指数家族的一部分,所以我没有想法。g


[1] Cribari-Neto, F. 和 Zeileis, A. (2009)。R中的Beta回归。

3个回答

检查原始参考:

Ferrari, S. 和 Cribari-Neto, F. (2004)。用于建模率和比例的 Beta 回归。应用统计杂志,31(7),799-815。

正如作者所指出的,重新参数化的 beta 分布的参数是相关的,所以

请注意,参数不是正交的,这与广义线性回归模型(McCullagh 和 Nelder,1989 年)中所验证的相反。βϕ

因此,虽然该模型看起来像 GLM 并且像 GLM 一样嘎嘎作响,但它并不完全适合框架。

@probabilityislogic 的答案是正确的。

beta 分布在两个参数指数族中。Nelder 和 Wedderburn (1972)描述的简单 GLM 模型不包括两个参数指数族中的所有分布。

根据 N&W 的文章,GLM 适用于以下类型的密度函数(后来Jørgensen 1987中将其命名为指数色散族):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

带有附加链接功能f()自然参数的线性模型θ=f(μ)=f(Xβ).


所以我们也可以重写上面的分布:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

两个参数指数族是:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

看起来相似但更通用(如果其中之一θ是恒定的)。


区别很明显,而且也不可能将 beta 分布以 GLM 的形式存在。

但是,我缺乏足够的理解来创建一个更直观、更明智的答案(我感觉可以与各种基本原则建立更深入、更优雅的关系)。GLM 通过使用单变量指数分散模型代替最小二乘模型来概括误差的分布,并通过使用链接函数来概括均值的线性关系。

最好和最简单的直觉似乎是色散——α(ϕ)- 指数中的项,它与所有内容相乘,因此色散不会随θ. 而几个二参数指数族和准似然方法允许色散参数是θ也是。

我不认为 beta 分布是指数分散族的一部分。为了得到这个,你需要有一个密度

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

用于指定功能c()d(). 均值给出为c(θ)方差为τc(θ). 参数称为规范参数。θ

beta 分布不能这样写 - 一种查看方式是注意对数似然中没有y- 它有ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

另一种看出 beta 不是指数色散族的方法是它可以写​​成其中是独立的,并且都遵循具有相同尺度参数的 gamma 分布(和 gamma是指数族)。y=xx+zxz