机器算法验证 - 如何对非负零膨胀连续数据建模？ - 吾爱随笔录

如何对非负零膨胀连续数据建模？

机器算法验证回归零通胀 tobit回归 tweedie-distribution

2022-02-09 21:27:48

我目前正在尝试将线性模型 ( family = gaussian) 应用于不能取值低于零、零膨胀且连续的生物多样性指标。值范围从 0 到略高于 0.25。结果，模型的残差中有一个非常明显的模式，我没有设法摆脱：

有没有人对如何解决这个问题有任何想法？

2个回答

对于零膨胀（半）连续分布的情况，有多种解决方案：

Tobit 回归：假设数据来自一个单一的底层正态分布，但负值被审查并堆叠为零（例如censReg 包）。这是一本关于 Tobit 模型的好书，见第 1 章和第 5 章。
有关其他审查高斯替代方案，请参见此答案
跨栏或“两阶段”模型：使用二项式模型来预测值是 0 还是 >0，然后使用线性模型（或 Gamma，或截断正态，或对数正态）来模拟观察到的非零值（通常，您需要通过运行两个单独的模型来滚动自己的模型；对于泊松等计数分布（例如glmmTMB、pscl），同时存在适合零分量和非零分量的组合版本；glmmTMB也可以Beta 或 Gamma 响应的“零膨胀”/障碍模型）
Tweedie 分布：指数族中的分布，对于给定的形状参数范围( $1<p<2$ ) 的点质量为零且偏斜的正分布为 $x>0$ （例如tweedie、cplm、glmmTMB包）

或者，如果您的数据结构足够简单，您可以只使用线性模型并使用置换测试或其他一些稳健的方法来确保您的推理不会被有趣的数据分布搞砸。

大多数情况下都有可用的 R 包/解决方案。

在 SE 上还有其他关于零膨胀（半）连续数据的问题（例如，这里、这里和这里），但它们似乎没有提供明确的一般答案......

另请参见Min & Agresti, 2002，使用零聚集对非负数据建模：概览。

您还可以使用泊松伪最大似然法 (PPML)。它首先由Santos Silva 和 Tenreyero (2006)开发，用于国家间国际贸易的应用。2011 年，同一作者扩展了对 PPML 性能的分析（参见此处）。他们也有这个页面，上面有一些关于模型的材料。后来，它被用于许多其他应用程序。在我的领域，它被用于能源经济学、政策和监管领域（例如，Zhao et al. (2013)、De Groote et al. (2016)、Gautier and Jacqmin (2020)）

在 Stata 中，您可以使用该ppmlhdfe命令，其实现在此处。

其它你可能感兴趣的问题

上一篇逻辑回归中对优势比的简单预测的解释下一篇检查两个泊松样本是否具有相同的均值