机器算法验证 - 何时对计数数据使用泊松、几何和负二项式 GLM？ - 吾爱随笔录

何时对计数数据使用泊松、几何和负二项式 GLM？

机器算法验证广义线性模型负二项分布计数数据泊松回归零通胀

2022-02-15 17:48:32

我正在尝试在 GLM 框架内将哪种回归类型（几何、泊松、负二项式）与计数数据一起使用（8 个 GLM 分布中只有 3 个用于计数数据，尽管大多数我已经阅读了负二项分布和泊松分布的中心）。

何时对计数数据使用泊松、几何和负二项式 GLM？

到目前为止，我有以下逻辑：它是计数数据吗？如果是，均值和方差是否不相等？如果是，负二项式回归。如果不是，泊松回归。通货膨胀为零吗？如果是，零膨胀泊松或零膨胀负二项式。

问题 1似乎没有明确指示何时使用哪个。有什么可以告知这个决定吗？据我了解，一旦您切换到 ZIP，平均方差等于假设就会放松，因此它再次与 NB 非常相似。

问题 2在决定是否在回归中使用几何族时，几何族在哪里适合？或者我应该对数据提出什么样的问题？

问题 3我看到人们一直在交换负二项分布和泊松分布，但不是几何分布，所以我猜测何时使用它有一些明显不同。如果是这样，它是什么？

PS如果人们想评论/调整它以供讨论，我已经制作了一个（可能过于简化，来自评论）图表（可编辑）我目前的理解。计数数据：GLM 决策树

1个回答

泊松分布和几何分布都是负二项式 (NB) 分布的特例。一种常见的符号是 NB 的方差是 $\mu + 1/\theta \cdot \mu^2$ 在哪里 $\mu$ 是期望和 $\theta$ 负责（过度）分散的量。有时 $\alpha = 1/\theta$ 也被使用。泊松模型有 $\theta = \infty$ , 即等色散, 几何有 $\theta = 1$ .

因此，如果对这三个模型有疑问，我建议估算 NB：最坏的情况是您通过估算一个参数太多而损失一点效率。但是，当然，也有正式的测试来评估某个值是否 $\theta$ （例如，1 或 $\infty$ ）足够了。或者您可以使用信息标准等。

当然，还有许多其他单参数或多参数计数数据分布（包括您提到的复合泊松）有时可能会或可能不会导致显着更好的拟合。

至于多余的零：两种标准策略是使用零膨胀计数数据分布或由零或更大的二进制模型加上零截断计数数据模型组成的障碍模型。正如您提到的那样，过多的零点和过度分散可能会令人困惑，但即使在调整模型以适应过多的零点后，通常也会存在相当大的过度分散。同样，如果有疑问，我建议按照与上述相同的逻辑使用基于 NB 的零通胀或障碍模型。

免责声明：这是一个非常简短的概述。在实践中应用这些模型时，我建议查阅有关该主题的教科书。就个人而言，我喜欢 Winkelmann 和 Cameron & Trivedi 的计数数据书籍。但也有其他好的。对于基于 R 的讨论，您可能还喜欢我们在 JSS 中的论文 ( http://www.jstatsoft.org/v27/i08/ )。

其它你可能感兴趣的问题

上一篇如何在多标签分类器上使用 scikit-learn 的交叉验证功能下一篇如何在 R 中建立和估计多项式 logit 模型？