零膨胀泊松或零膨胀负二项式的“偏差”度量?

机器算法验证 拟合优度 零通胀 越轨
2022-03-14 03:39:37

比例偏差,定义为 D = 2 *(饱和模型的对数似然减去拟合模型的对数似然),通常用作 GLM 模型中拟合优度的度量。解释百分比偏差,定义为 [D(null model) - D(fitted model)] / D(null model),有时也用作 GLM 模拟线性回归的 R 平方。除了 ZIP 和 ZINB 分布不是指数分布族的一部分这一事实之外,我很难理解为什么在零膨胀建模中不使用缩放偏差和百分比偏差解释。任何人都可以对此有所了解或提供有用的参考吗?提前致谢!

1个回答

偏差是 GLM 概念,ZIP 和 ZINB 模型不是 glms,而是表示为 GLM 分布的有限混合,因此可以通过 EM 算法轻松解决。

这些注释简明扼要地描述了偏差理论。如果您阅读这些笔记,您将看到 Poisson 回归的饱和模型具有对数似然的证明

(λs)=i=1,yi0n[yilog(yi)yilog(yi!)]

这是插件估计的结果。yi=λ^i

我现在将继续讨论 ZIP 可能性,因为数学更简单,ZINB 也有类似的结果。不幸的是,对于 ZIP,没有像泊松那样简单的关系。个观察对数似然是i

i(ϕ,λ)=Zilog(ϕ+(1ϕ)eλ)+(1Zi)[λ+yilog(λ)log(yi!)].

没有被观察到,所以要解决这个问题,你需要对进行偏导,将方程设置为 0,然后求解这里的困难是值,这些值可以进入并且如果不观察是不可能的。但是,如果我们知道值,我们就不需要 ZIP 模型,因为我们不会丢失数据。观察到的数据对应于 EM 形式主义中的“完整数据”可能性。Ziλϕλϕyi=0λ^ϕ^Ziyi=0Zi

一种可能合理的方法是使用完整数据对数似然移除并替换为期望,这是EM 算法使用最新更新计算的部分(E 步骤)。不过,我不知道有任何文献研究过这种偏差的方法。ZiE(i(ϕ,λ))Ziexpected

另外,这个问题是第一个被问到的,所以我回答了这个帖子。但是,关于同一主题还有另一个问题,Gordon Smyth 在这里发表了很好的评论: 零膨胀复合泊松模型的偏差,连续数据 (R) ,其中他提到了相同的响应(这是对该评论的详细说明,我会说)加上他们在另一篇文章的评论中提到了一篇您可能想阅读的论文。(免责声明,我没有阅读引用的论文)