如何对非负零膨胀连续数据建模?

机器算法验证 回归 零通胀 tobit回归 tweedie-distribution
2022-02-09 21:27:48

我目前正在尝试将线性模型 ( family = gaussian) 应用于不能取值低于零、零膨胀且连续的生物多样性指标。值范围从 0 到略高于 0.25。结果,模型的残差中有一个非常明显的模式,我没有设法摆脱: 在此处输入图像描述

有没有人对如何解决这个问题有任何想法?

2个回答

对于零膨胀(半)连续分布的情况,有多种解决方案:

  • Tobit 回归:假设数据来自一个单一的底层正态分布,但负值被审查并堆叠为零(例如censReg 包)。这是一本关于 Tobit 模型的好书,见第 1 章和第 5 章。
  • 有关其他审查高斯替代方案,请参见此答案
  • 跨栏或“两阶段”模型:使用二项式模型来预测值是 0 还是 >0,然后使用线性模型(或 Gamma,或截断正态,或对数正态)来模拟观察到的非零值(通常,您需要通过运行两个单独的模型来滚动自己的模型;对于泊松等计数分布(例如glmmTMBpscl),同时存在适合零分量和非零分量的组合版本;glmmTMB也可以Beta 或 Gamma 响应的“零膨胀”/障碍模型)
  • Tweedie 分布:指数族中的分布,对于给定的形状参数范围(1<p<2) 的点质量为零且偏斜的正分布为x>0(例如tweediecplmglmmTMB包)

或者,如果您的数据结构足够简单,您可以只使用线性模型并使用置换测试或其他一些稳健的方法来确保您的推理不会被有趣的数据分布搞砸。

大多数情况下都有可用的 R 包/解决方案。

在 SE 上还有其他关于零膨胀(半)连续数据的问题(例如,这里这里这里),但它们似乎没有提供明确的一般答案......

另请参见Min & Agresti, 2002,使用零聚集对非负数据建模:概览。

您还可以使用泊松伪最大似然法 (PPML​​)。它首先由Santos Silva 和 Tenreyero (2006)开发,用于国家间国际贸易的应用。2011 年,同一作者扩展了对 PPML 性能的分析(参见此处)。他们也有这个页面,上面有一些关于模型的材料。后来,它被用于许多其他应用程序。在我的领域,它被用于能源经济学、政策和监管领域(例如,Zhao et al. (2013)De Groote et al. (2016)Gautier and Jacqmin (2020)

在 Stata 中,您可以使用该ppmlhdfe命令,其实现在此处