具有计数数据和过度分散的回归中的泊松或准泊松?

机器算法验证 计数数据 泊松回归 过度分散 准可能性
2022-02-14 09:30:39

我有计数数据(需求/报价分析,计算客户数量,取决于 - 可能 - 许多因素)。我尝试了具有正常误差的线性回归,但我的 QQ 图不是很好。我尝试了对答案的对数转换:再一次,糟糕的QQ图。

所以现在,我正在尝试使用泊松错误进行回归。使用包含所有重要变量的模型,我得到:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

剩余偏差大于剩余自由度:我有过度离散。

我怎么知道我是否需要使用准泊松?在这种情况下,准泊松的目标是什么?我在 Crawley 的“The R Book”中读到了这个建议,但我没有看到这一点,也没有看到我的案例有很大的改进。

2个回答

当试图确定你想要估计什么样的 glm 方程时,你应该考虑给定右手边 (rhs) 变量的目标变量的期望值和给定 rhs 变量的目标变量的方差之间的合理关系。来自您的 Normal 模型的残差与拟合值的图可以对此有所帮助。使用泊松回归,假设关系是方差等于期望值;相当严格,我想你会同意的。对于“标准”线性回归,假设方差是恒定的,而与预期值无关。对于准泊松回归,假设方差是均值的线性函数;对于负二项式回归,二次函数。

但是,您不限于这些关系。“族”(“准”除外)的规范决定了均值-方差关系。我没有 The R Book,但我想它有一个表格,显示了家庭函数和相应的均值-方差关系。对于“准”族,您可以指定几种均值-方差关系中的任何一种,甚至可以编写自己的;请参阅R 文档通过为“准”模型中的均值方差函数指定非默认值,您可能会找到更好的拟合。

您还应该注意目标变量的范围;在您的情况下,它是非负计数数据。如果您有很大一部分低值 - 0、1、2 - 连续分布可能不太适合,但如果不适合,则使用离散分布没有太大价值。您很少将泊松分布和正态分布视为竞争对手。

你是对的,这些数据可能是过度分散的。Quasipoisson 是一种补救措施:它也估计一个尺度参数(对于泊松模型是固定的,因为方差也是均值)并且将提供更好的拟合。但是,您所做的不再是最大可能性,并且无法使用某些模型测试和指数。在 Venables 和 Ripley, Modern Applied Statistics with S (Section 7.5)中可以找到很好的讨论

另一种方法是使用负二项式模型,例如glm.nb()package 中的函数MASS