机器算法验证 - 为过度分散的计数数据选择泊松回归的替代方案 - 吾爱随笔录

我目前正在分析一系列行为实验的数据，这些实验都使用以下度量。这个实验的参与者被要求选择（虚构的）其他人可以用来帮助解决一系列 10 个字谜的线索。参与者被引导相信这些其他人将获得或赔钱，这取决于他们在解决字谜方面的表现。线索的帮助程度各不相同。例如，对于 RUNNING 的字谜 NUNGRIN，三个线索可能是：

快速移动（无用）
你在马拉松比赛中做了什么（有帮助）
并不总是一个健康的爱好（无益）

为了形成衡量标准，我计算了参与者为其他人选择无用线索的次数（共 10 次）。在实验中，我使用各种不同的操作来影响人们选择的线索的有用性。

因为有用性/无用性度量是相当强烈的正偏态（很大一部分人总是选择 10 个最有用的线索），并且因为该度量是一个计数变量，所以我一直在使用泊松广义线性模型来分析这些数据。然而，当我对泊松回归进行更多阅读时，我发现由于泊松回归不能独立估计分布的均值和方差，它经常低估一组数据中的方差。我开始研究泊松回归的替代方案，例如准泊松回归或负二项式回归。但是，我承认我对这些模型比较陌生，所以我来这里寻求建议。

有人对这种数据使用哪种模型有任何建议吗？是否还有其他我应该注意的注意事项（例如，一个特定模型是否比另一个更强大？）？我应该查看哪种诊断方法来确定我选择的模型是否正确处理了我的数据？