负二项式回归模型与具有对数结果变量的 OLS 有何不同?

机器算法验证 回归 数据转换 预言 负二项分布 幂律
2022-04-03 22:17:14

我经常处理高度偏斜(类似幂律)的结果变量的分布,并且我通常想预测这些结果。

我想知道什么时候记录结果变量并应用 OLS 是合适的,什么时候适合使用负二项式回归?

1个回答

假设您已经确定了感兴趣/重要的预测变量,模型的考虑因素(按重要性的大致顺序)将是:

  1. 一个。你想对条件均值或其他东西进行建模(例如分位数?比均值更强大的位置估计?...)?

    湾。响应和预测变量之间关系的预期形式是什么(线性?指数?幂?未知但平滑?未知但平滑和单调?等等)......

  2. 是否应该期望可变性相当恒定?改变意思?变化但无关的意思?...

  3. 你预计观察之间有任何实质性的依赖关系吗?

  4. 现在是分布考虑以及您是否要担心影响点的边界影响(请注意,我们尚未查看我们的数据)。但是您需要担心的分布是条件分布(在给定的预测变量值下的分布)而不是边际分布。

请注意,如果关系是指数的并且您的条件响应非常接近对数正态 - 它是连续的,而负二项式是离散的,则采用对数和拟合 OLS 将是理想的(接近最优)。进一步注意,负二项式模型的非零概率为 0,但您不能取 0 的对数。

在实践中,除了小计数的离散性/问题之外,有时可能几乎没有其他东西可以区分两者。这是(有条件地)负二项式(左)和对数正态(右)响应的图,两者都带有对数“链接”。如您所见,它们看起来非常相似 - 它们具有与相似的均值移动,在每个处具有相似的分布,依此类推。xx

从负二项式和对数正态回归模型生成的数据图

另一方面,如果您考虑对数正态模型,为什么不考虑伽马或威布尔?将具有相同类型的线性对数关系的模型与它们中的任何一个拟合是相当容易的。

不同的一件事是观察进入模型的方式——如果在最佳情况下我们用变换的加权最小二乘线性模型来近似两个模型,那么这些点的相对权重会有所不同。

要记住的是,如果您正在转换,对数刻度上的预测值(即对数平均值的估计)将不代表您转换回的平均值。如果条件可变性非常小,可能不会打扰您,但更常见的是它可以产生很大的不同 - 特别是当方差非零。exp(E(log(Y|x)))<E(Y|x)