回归中的“零膨胀”预测因子?

机器算法验证 回归 泊松分布 零通胀
2022-01-27 15:01:35

我知道零膨胀模型(例如零膨胀泊松或负二项式模型)可用于因变量。我也知道,一般来说,回归分析中没有对自变量(即预测变量)的假设。但是,我有一个定量(连续或计数)预测器,它有很多(比如 40-60%)零。当我将它用作回归(线性或逻辑)中的定量预测器时,我得到了一个小的 P 值(即 P<0.01),但是当我将它用作二元预测器(零或不)时,我得到了一个 P 值>0.05。为什么会这样?我如何解释这个结果?

2个回答

因此,重要的是要考虑零通胀的来源。想到的两个来源是:

  • 地板效应:您的测量仪器无法检测到低于某个阈值的值,因此仪器简单地返回零。想想一个有 40 个问题的量表,据说是衡量“高端数学知识”,所以测试真的很难。对于每个问题,您可能不正确(0 分)或正确(1 分)。考生可能在所有 40 个问题上都不正确,导致总分为 0。假设该量表确实是一维的/对高端数学知识有效,这个 0 分并不意味着受访者的数学知识为零。但这表明他们的数学知识处于测试可以检测到的水平以下。如果有人对普通人群进行此测试,您可能会得到很大比例的零分。这种情况可能发生在许多不同的环境中。有时,测量仪器只能检测超出阈值的差异,并且有几个受访者低于该阈值。物理量仪器可能只是返回一个< X分数,其中 X 是该阈值。
  • 真零:有时,人们的分数真的为零。例如,这可能发生在计数上,例如您拥有多少房屋?有时,不拥有自己房屋的人和拥有一个或多个房屋的人之间存在根本性的不同。

因此,重要的是要考虑零的来源以及您要测量的内容。

在地板效应的情况下,我可能会声称数学分数将近似正态分布,但对于地板效应。因此,我假设我们有一个正态分布的变量,该变量已被审查为 0。使用预测器进行分析的效果是范围限制——所有其他因素保持不变——可以降低功率。因此,您可以构建一个包含审查预测器的模型 - 贝叶斯建模应该使这变得容易。

在真正的零情况下,我可能决定将变量二分以创建两个预测变量:一个二元(房主与否)和一个连续(有多少房屋)。然后在我的模型中使用这两个预测变量,让您可以衡量拥有更多房屋的房屋所有权的影响。

这些只是我想到的两种情况。此外,它从来都不是明确的。房屋数量也可以作为另一个变量的代理,其中房屋数量是无法检测到低于阈值的变量水平的代理。如果您的兴趣是衡量结果与真实可变房屋数量之间的关系是一个代理,那么您还有另一个审查预测变量的示例。

总而言之,拥有许多零的预测器会欢迎您思考为什么会发生这种情况。以及您可能想要做的事情。此外,最简单的观点是回归对预测变量分布不做任何假设,而是按原样处理预测变量。

零通胀是一个概率概念,它的含义不同于“分布有很多零”。例如,泊松或负二项式模型可以使用参数,以便 90% 或 99% 的值是 0,但这不会“使它”零膨胀。零通胀是已知概率模型和 0 常数“变量”的混合。

统计中,当您考虑所有多模态分布时,并收集您所描述的样本并声明 a. 你知道它应该是什么分布和b。它不适合那个分布,因为它是零膨胀的......好吧,合理性几乎肯定是0。

如果我们扩大范围,则需要考虑一个更具说明性的问题:我们何时关心协变量分布的影响X进行回归分析时?答案是:几乎从来没有。更准确地说,大多数默认回归方法不使用协变量的分布。例外情况是使用权重校正有偏抽样、测量误差方法、间接标准化、执行期望最大化以处理截断或参数引导:即高级方法。然而,例如,OLS 在几何上是一个投影,因此残差与预测变量正交,这并不能保证误差项和回归变量是独立的,因此需要详细的诊断图和分析。

最后,您的发现不足为奇。对于不规则协变量来说,对变量进行二分法仍然不是一个好主意,因为同样的原因对于表现良好的协变量来说也是一个坏主意。减少可变性X降低分析的精度。事实上,一个很好的回忆公式如下:

SE(β^)=σ2/var(X)

(或多或少扩展到更高维分析的双变量结果)。

换句话说,置信区间β^p- 假设统计检验的值H0:β=0 在考虑设计时缩小X变数更大。对变量进行二分法从根本上减少了它的可变性。