零膨胀泊松回归

机器算法验证 泊松回归 零通胀
2022-03-12 23:47:54

认为Y=(Y1,,Yn)是独立的并且

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

还假设参数λ=(λ1,,λn)p=(p1,,pn)满足

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

如果相同的协变量影响λp以便B=G,那么为什么零膨胀泊松回归需要的参数是泊松回归的两倍?

1个回答

在零膨胀泊松情况下,如果B=G, 然后βλ两者具有相同的长度,即B或者G. 因此,参数的数量是设计矩阵列数的两倍,即包括截距在内的解释变量数量的两倍(以及所需的任何虚拟编码)。

在直接泊松回归中,没有p向量担心,无需估计λ. 所以参数个数就是长度β即零膨胀情况下参数数量的一半。

现在,没有什么特别的原因B必须相等G,但通常它是有道理的。但是,可以想象一个数据生成过程,其中发生任何事件的机会是由一个过程创建的Gλ和一个完全不同的过程Bβ在给定非零事件的情况下,驱动有多少事件。作为一个人为的例子,我根据他们的历史考试成绩选择教室来玩一些不相关的游戏,然后观察他们的进球数。在这种情况下 B可能与G(如果驾驶历史考试成绩与游戏中驾驶表现不同)和βλ可以有不同的长度。G可能有更多的列B或更少。因此,在这种情况下,零膨胀泊松模型将比简单的泊松模型具有更多参数。

在通常的实践中,我认为G=B大多数时候。