对极度分散的计数数据进行建模 - 什么分布?

机器算法验证 分布 计数数据 过度分散 泊松分布 分散不足
2022-03-17 23:16:42

假设我们有一些计数数据,并且我们想要使用允许数据中“过度分散”或“分散不足”的模型(即,高于或低于泊松分布的方差)。X成为我们的计数变量并让ϕ=E(X)/S(X)表示变异系数过度分散的数据通常使用负二项分布建模,过度分散或欠分散的数据都可以使用广义泊松分布建模。但是,这两种分布的允许变异系数范围仍然有限。具体来说,对于给定的平均值μ,每个分布下变异系数的允许值(允许角值)为:

Poissonϕ=1,Negative Binomialϕ1,Generalised Poissonϕmax(14,(4μ)24),

广义 Poisson 分布是 Poisson 的一个很好的概括,可用于计数数据,但它仍然对变异系数有一个限制值,不允许您对高度分散不足的计数数据进行建模。如果色散非常低,那么即使是广义泊松也无法很好地建模。

问题:是否有任何分布概括了泊松分布,可以合理地用于对计数数据进行建模,并且变异系数的范围不受限制(即,它允许ϕ0)?

1个回答

Conway-Maxwell-Poisson 模型最近被证明可以处理任意小的欠离散(参见Huang 2020)。例如,可以通过选择足够大的分散参数来获得平均值 15 和方差 2。在极端情况下,甚至可能有 15 和 0 方差的均值,或者 15.2 和 0.2*0.8 = 0.16 的均值,这是均值 15.2 可能的最小方差。均值参数化的 Conway-Maxwell-Poisson 模型在 R 中的 mpcmp 包中实现(Fung 等人,2020 年)。

其他可能被任意分散不足的替代方案包括 Efron 的双泊松 (JASA, 1986) 和Ridout & Besbeas (2004)的指数重新加权泊松然而,这些模型都没有通过均值对分布进行参数化,因此当分散变得任意小时,更难看出会发生什么。