响应变量为比例而非二项式时的适当 GLM

机器算法验证 r 二项分布 部分 锯齿 贝塔分布
2022-04-10 09:47:29

我正在处理的响应变量是适合感兴趣物种栖息地的总面积的比例。因此,尽管响应变量的范围在 0 和 1 之间,但我的直觉是,将其称为二项式并不合适,因为比例的分子和分母都是非整数。我想到了 beta 分布,但我不确定适当的链接功能以及 R 中是否有工具来处理 beta。

我最终目标的一些背景知识:我可能会追求一个条件自回归模型来解释空间自相关。因为我处理的是河流系统,所以我会将空间视为一维的,因此每个观测单元只有两个邻居:上游和下游。

如果我决定采用贝叶斯,我将在 R 和 JAGS/BUGS 中工作。

2个回答

在进入 GLM 领域之前,可能值得在响应变量的适当转换版本上拟合回归模型。如果我们让成为面积比例(并假设您没有任何比例恰好为零或一),那么一个合理的回归模型将是:0<Yi<1

log(Yi1Yi)=β0+k=1mβ1xi,k+εiεiIID N(0,σ2).

这是一种与双曲正切函数的缩放变体密切相关的变换如果我们让表示方程的回归部分,那么我们有:μiβ0+kβ1xi,k

log(Yi1Yi)=μi+εiYi=exp(μi+εi)1+exp(μi+εi)

显然,这个回归方程可能不适合您的数据,特别是如果存在复杂的空间自相关。然而,简单地理解与解释变量的关系是建模的合理起点。这是一个线性回归模型,可以使用标准 MLE 方法进行拟合。然后,您可以使用诊断图来查找表明转换失败的非线性。您还可以使用诊断方法来测试空间自相关等,以查看是否需要泛化您的模型。

正如你所提到的,我想到了 Beta 回归。环顾网站和相应的标签,.

R 也有一个包betareg