不分散计数数据的合适模型是什么?

机器算法验证 r 泊松分布 负二项分布 β-二项分布 分散不足
2022-02-04 12:31:05

我正在尝试对R 中明显分散不足的计数数据进行建模(分散参数 ~ .40)。这可能就是为什么glm带有family = poisson或负二项式 ( glm.nb) 模型不显着的原因。当我查看数据的描述时,我没有典型的计数数据偏斜,而且我的两个实验条件下的残差也是同质的。

所以我的问题是:

  1. 如果我的计数数据不像计数数据,我是否甚至必须对计数数据使用特殊的回归分析?我有时会面临非正态性(通常是由于峰态),但我使用百分位自举法来比较修剪后的平均值(Wilcox,2012)来解释非正态性。计数数据的方法可以用 Wilcox 建议并在 WRS 包中实现的任何稳健方法替代吗?

  2. 如果我必须对计数数据使用回归分析,我该如何解释分散不足?泊松分布和负二项分布假设了更高的离散度,所以这不合适,对吧?我正在考虑应用准泊松分布,但通常建议过度分散。在 R 的包中读到了似乎能够解释过度分散和欠分散的beta-二项式VGAM模型。然而,作者似乎推荐使用波浪形泊松分布,但我在包中找不到它.

任何人都可以推荐一个用于分散数据的程序,并可能提供一些示例 R 代码吗?

4个回答

处理欠分散泊松数据的最佳 --- 标准方法是使用广义泊松模型,或者可能是障碍模型。三参数计数模型也可用于分散不足的数据;例如 Faddy-Smith、Waring、Famoye、Conway-Maxwell 和其他广义计数模型。这些的唯一缺点是可解释性。但对于一般分散不足的数据,应使用广义泊松。这就像过度分散数据的负二项式。我在剑桥大学出版社出版的两本书《建模计数数据》(2014 年)和《负二项式回归》,第 2 版(2011 年)中详细讨论了这一点。在 R 中,VGAM 包允许广义泊松 (GP) 回归。色散参数的负值表示对色散不足的调整。您也可以将 GP 模型用于过度分散的数据,但一般NB型号更好。归根结底,最好确定分散不足的原因,然后选择最合适的模型来处理它。

我曾经遇到过一个分散的泊松,它与人们玩社交游戏的频率有关。事实证明,这是由于人们在周五玩游戏的极端规律性。删除周五的数据给了我预期的过度分散的泊松。也许您可以选择类似地编辑您的数据。

Joseph Hilbe 在 vgam 包中提供的解决方案似乎不再可用。从包的手册中: genpoisson() 已通过仅处理正参数简化为 genpoisson0,因此仅容纳相对于 Poisson 的过度分散。造成这种情况的一些原因在 Scollnik (1998) 中有所描述,例如,当 lambda 为负时,概率之和不等于一。简单来说,VGAM 1.1-4 及更高版本将只处理正 lambda。

在某些情况下,分散不足与零通货膨胀结合在一起,这对于两性个体的首选儿童计数来说是典型的。到目前为止,我还没有找到一种方法来捕捉它