我正在努力理解零膨胀分布。这些是什么?重点是什么?
如果我有许多零的数据,那么我可以拟合逻辑回归,首先计算零的概率,然后我可以删除所有的零,然后使用我选择的分布(例如泊松)拟合正则回归。
然后有人告诉我“嘿,使用零膨胀分布”,但是查了一下,它似乎与我上面建议的没有什么不同?它有一个常规参数,然后是另一个参数对零概率建模?它只是同时做这两件事,不是吗?
我正在努力理解零膨胀分布。这些是什么?重点是什么?
如果我有许多零的数据,那么我可以拟合逻辑回归,首先计算零的概率,然后我可以删除所有的零,然后使用我选择的分布(例如泊松)拟合正则回归。
然后有人告诉我“嘿,使用零膨胀分布”,但是查了一下,它似乎与我上面建议的没有什么不同?它有一个常规参数,然后是另一个参数对零概率建模?它只是同时做这两件事,不是吗?
拟合逻辑回归首先计算零的概率,然后我可以删除所有的零,然后使用我选择的分布拟合正则回归(例如泊松)
你是绝对正确的。这是拟合零膨胀模型的一种方法(或者正如 Achim Zeileis 在评论中指出的那样,这严格来说是一个“障碍模型”,可以将其视为零膨胀模型的特例)。
您描述的过程与“一体化”零膨胀模型之间的区别在于错误传播。与统计中的所有其他两步过程一样,第 2 步中预测的总体不确定性不会考虑预测是否应为 0 的不确定性。
有时这是必要的邪恶。幸运的是,在这种情况下没有必要。在 R 中,您可以使用pscl::hurdle()
或fitdistrplus::fitdist()
。
您描述的基本思想是一种有效的方法,它通常被称为障碍模型(或两部分模型)而不是零膨胀模型。
然而,至关重要的是非零数据的模型要考虑去除零。如果您将泊松模型拟合到没有零的数据,这几乎肯定会产生较差的拟合,因为泊松分布总是具有零的正概率。自然的替代方法是使用零截断泊松分布,这是计数数据障碍回归的经典方法。
零膨胀模型和障碍模型之间的主要区别在于,在回归的二元部分中对哪个概率进行建模。对于障碍模型,它只是零与非零的概率。在零膨胀模型中,它是具有过量零的概率,即不是由未膨胀分布(例如,泊松)引起的零的概率。
有关 R 中计数数据的障碍和零通货膨胀模型的讨论,请参阅我们在 JSS 中发表的手稿,并作为小插图发送到pscl
包中: http: //dx.doi.org/10.18637/jss.v027.i08
ssdecontrol 说的很对。但我想在讨论中增加几分钱。
我刚刚在 YouTube 上观看了 Richard McElreath 关于计数数据的零膨胀模型的讲座。
在控制解释纯泊松模型比率的变量的同时估计 p 是有意义的,特别是如果您认为观察到的零来自泊松分布的机会不是 100% 。
当您考虑模型的参数时,这也是有意义的,因为您最终需要估计两个变量,p 和泊松模型的比率,以及两个方程,计数为零的情况和计数不同的情况零。
图片来源:Statistical Rethinking - A Bayesian Course with Examples in R and Stan by Richard McElreath
编辑:错字