在 Poisson 与 Quasi-Poisson 模型中估计的相同系数

机器算法验证 r 计数数据 泊松回归 过度分散 准可能性
2022-03-27 16:53:35

在对保险环境中的索赔计数数据建模时,我从泊松开始,但后来发现过度分散。Quasi-Poisson 比基本 Poisson 更好地模拟了更大的均值方差关系,但我注意到 Poisson 和 Quasi-Poisson 模型中的系数是相同的。

如果这不是错误,为什么会发生这种情况?使用 Quasi-Poisson 优于 Poisson 有什么好处?

注意事项:

  • 潜在的损失是超额的,这(我相信)阻止了 Tweedie 的工作——但这​​是我尝试的第一个分布。我还检查了 NB、ZIP、ZINB 和 Hurdle 模型,但仍然发现 Quasi-Poisson 提供了最佳拟合。
  • 我通过 AER 包中的分散测试测试了过度分散。我的色散参数约为 8.4,p 值为 10^-16 大小。
  • 我正在使用 glm() 与 family = poisson 或 quasipoisson 以及代码的日志链接。
  • 运行泊松代码时,我会出现“In dpois(y, mu, log = TRUE) : non-integer x = ...”的警告。

根据 Ben 的指导,有用的 SE 线程:

  1. 泊松回归中偏移的基本数学
  2. 偏移对系数的影响
  3. 使用曝光作为协变量与偏移之间的区别
1个回答

这几乎是重复的;链接的问题解释说,您不应该期望系数估计、残余偏差或自由度会改变。从泊松到准泊松的唯一变化是,之前固定为 1 的尺度参数是根据残差变异性/拟合不良的估计值计算得出的(通常通过 Pearson 残差的平方和来估计) (χ2) 除以残差 df,尽管渐近地使用残差得出相同的结果)。结果是标准误差由这个比例参数的平方根缩放,同时置信区间和p-价值观。

准似然的好处是它修正了假设数据是泊松(=同质、独立计数)的基本谬误;但是,以这种方式解决问题可能会掩盖数据的其他问题。(见下文。)准似然是处理过度离散的一种方法;如果您不以某种方式解决过度分散问题,您的系数将是合理的,但您的推论(CIs,p-values 等)将是垃圾。

  • 正如您在上面评论的那样,有很多不同的过度分散方法(Tweedie、不同的负二项式参数化、准似然、零通货膨胀/改变)。
  • 由于过度分散因子 > 5 (8.4),我会担心它是否是由某种模型不匹配(异常值、零通胀 [我看到你已经尝试过]、非线性)驱动的,而不是而不是代表全面的异质性。我对此的一般方法是对原始数据和回归诊断进行图形探索......