泊松回归假设以及如何在 R 中测试它们

机器算法验证 r 计数数据 零通胀 泊松回归
2022-03-19 22:27:37

我想测试哪种回归最适合我的数据。我的因变量是一个计数,并且有很多零。

我需要一些帮助来确定使用什么模型和系列(泊松或准泊松,或零膨胀泊松回归),以及如何测试假设。

  1. 泊松回归:据我了解,强有力的假设是因变量均值 = 方差。你如何测试这个?他们必须离得有多近?是否使用无条件或条件均值和方差?如果这个假设不成立,我该怎么办?
  2. 我读到,如果方差大于平均值,我们就有过度离散,解决这个问题的一种潜在方法是包括更多的自变量,或者 family=quasipoisson。此分布是否有任何其他要求或假设?我使用什么测试来查看(1)或(2)是否更适合 - 简单anova(m1,m2)
  3. 我还读到当出现过度分散时可以使用负二项分布。我如何在 R 中做到这一点?与准泊松有什么区别?
  4. 零膨胀泊松回归:我读到使用 vuong 测试检查哪些模型更适合。

    > vuong (model.poisson, model.zero.poisson)

    那是对的吗?零膨胀回归有哪些假设?

  5. 加州大学洛杉矶分校的学术技术服务统计咨询小组有一个关于零膨胀泊松回归的部分,并根据标准泊松模型 (b) 测试零膨胀模型 (a):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

我不明白| persons第一个模型的部分做了什么,以及为什么你可以比较这些模型。我曾期望回归是相同的,只是使用不同的家庭。

2个回答

1) 计算均值和样本方差。应该是分布的,其中是样本的大小并且过程是真正的泊松 - 因为它们是独立的估计相同的方差。X¯S2F(1,n1)n

请注意,此测试忽略了协变量 - 因此可能不是在这种情况下检查过度分散的最佳方法。

另请注意,该检验可能对零膨胀假设较弱。

3)R中的负二项式:glm.nbMASS包中使用,或使用负二项式链接使用包中的zeroinfl函数。pscl

4)zip(零膨胀泊松)是一个混合模型。您有一个二元结果,根据该结果,受试者属于 A 组(其中 0 是确定的)或 B 组(其中计数是泊松分布或负二项分布)。观察到的 0 是由于 A 组的受试者 + B 组的受试者恰好幸运。模型的两个方面都可以依赖于协变量:组成员关系建模为逻辑逻辑(对数几率在协变量中是线性的),泊松部分以通常的方式建模:对数均值在协变量中是线性的。因此,您需要逻辑的通常假设(对于某些 0 部分)和泊松的通常假设。换句话说,zip 模型不能解决您的过度分散问题——它只能解决一大堆零的问题。

5)不确定数据集是什么,找不到参考。zeroinfl 需要泊松部分和二进制(确定为 0 或不是)部分的模型。确定的 0 部分排在第二位。所以ma是说人是否是某个0取决于“人” - 假设主题不是某个0,count是camper和child的函数。换句话说,对于那些不需要 0 计数的受试者,log(mean) 是 camper 和 child 的线性函数。

mb 只是根据 camper 和 child 的计数的一般线性模型 - 两者都假定为固定效应。链接函数是泊松。

  1. 图书馆(粘贴)

stat.desc(dep_var) - 然后看看均值和方差是否相等。从这里您还可以计算向量中零的百分比。