为过度分散的计数数据选择泊松回归的替代方案

机器算法验证 泊松分布 计数数据
2022-03-01 00:57:52

我目前正在分析一系列行为实验的数据,这些实验都使用以下度量。这个实验的参与者被要求选择(虚构的)其他人可以用来帮助解决一系列 10 个字谜的线索。参与者被引导相信这些其他人将获得或赔钱,这取决于他们在解决字谜方面的表现。线索的帮助程度各不相同。例如,对于 RUNNING 的字谜 NUNGRIN,三个线索可能是:

  1. 快速移动(无用)
  2. 你在马拉松比赛中做了什么(有帮助)
  3. 并不总是一个健康的爱好(无益)

为了形成衡量标准,我计算了参与者为其他人选择无用线索的次数(共 10 次)。在实验中,我使用各种不同的操作来影响人们选择的线索的有用性。

因为有用性/无用性度量是相当强烈的正偏态(很大一部分人总是选择 10 个最有用的线索),并且因为该度量是一个计数变量,所以我一直在使用泊松广义线性模型来分析这些数据。然而,当我对泊松回归进行更多阅读时,我发现由于泊松回归不能独立估计分布的均值和方差,它经常低估一组数据中的方差。我开始研究泊松回归的替代方案,例如准泊松回归或负二项式回归。但是,我承认我对这些模型比较陌生,所以我来这里寻求建议。

有人对这种数据使用哪种模型有任何建议吗?是否还有其他我应该注意的注意事项(例如,一个特定模型是否比另一个更强大?)?我应该查看哪种诊断方法来确定我选择的模型是否正确处理了我的数据?

3个回答

您的结果是 10 条中有用线索的数量,这是一个二项式随机变量。所以你应该用某种二项式回归来分析它,可能是准二项式以允许过度分散。请注意,泊松和误导性命名的负二项分布适用于无界计数数据。

如果可能的结果像泊松一样是无限的,我也建议查看负二项式。您可能想查阅 Joe Hilbe 的一本书。他有一个关于 GEE 和一个关于负二项式回归,他将其与 Poisson 回归进行对比。但正如 Aniko 指出的那样,只有 10 条线索,因此每个受访者只能有 0、1、2、3、...、10,因此泊松和负指数都不合适。

@Aniko 说得好。另一种选择是 Beta 回归。有一篇题为“更好的柠檬榨汁机”的论文提供了很多关于这种方法的信息。