比例数据 - beta 分布与具有二项分布和 logit 链接的 GLM

机器算法验证 广义线性模型 部分 贝塔分布
2022-03-17 02:45:59

我有一个渔业数据集,我已经为地图上的每个网格单元计算了值。该值是该单元格中每个月/年的总捕鱼组的比例。因此,我的值介于 0-1 之间,但不包括 0 和 1(范围实际上非常偏斜,为:0.0005347594 到 0.1933216169)。我感兴趣的是随着时间的推移,靠近特定位置的钓鱼组的比例是否更高。

我已经读过有两种方法可以做到这一点——要么是带有二项式族和 logit 链接的 GLM,要么是 beta 回归。

我在 R 中尝试了这两种方法:

二项式 GLM:

m1 <- glm(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
          family = binomial(link='logit'), data = Totals_CellId) 

测试版:

BetaGLM <- betareg(PercentTotalSets ~ factor(SetYear) + DayLength + DistTZCF + DistNWHI, 
                   data = Totals_CellId ) 

使用二项式 GLM,我得到的结果与我运行具有 gamma 分布的 GLM 时的结果非常不同(例如,DistNWHI在 p 值为 0.9 的情况下不显着,而在它显着之前)。通过 beta 回归,我得到了与具有伽马分布的 GLM 非常相似的结果(例如,DistNWHI具有相似 p 值的显着性)。

我认为 beta 回归是正确的方法,因为我没有 0 或 1,我需要设置界限,但我不确定这是否正确。

我会很感激任何和所有的建议。

2个回答

使用这种形式的计数数据,我实际上适合一个多项式模型(至少从 * 开始),因为分母中存在几个分子 - 每个“+1”计数可能进入任何个单元格(“集合')。k

(例如看这里

您需要除以的分母;该模型仍然适用于比例,但可变性取决于您用于获得比例的分母。

* 一个特别的问题是你会同时依赖空间和时间(例如,相邻位置和相邻时间往往比更远的位置或时间更相关 - 至少如果存在由此类影响引起的未建模变化)

拟合多项式模型后,您需要评估是否对方差和相关性进行了合理的建模——您可能需要混合模型 (GLMM),并且可能还需要考虑潜在的剩余过度离散。

您会在 CV 上找到多项关于多项式模型的讨论。


另一种可能性是将计数建模为泊松,通过允许与您提到的变化相关的偏移量、因子或连续预测变量作为您按比例缩放的原因。

根据您对如何计算比例的回答,我认为 beta 回归是最合适的。计数二项式的逻辑回归只有在您的总数中有一个常数时才有意义。由于您的总数每月都在变化,因此您的比例是连续的。因此 beta 回归是要走的路!