我可以将计数响应变量视为连续变量并运行 OLS 吗?

机器算法验证 回归 泊松分布 计数数据 泊松回归
2022-04-04 09:05:20

我从书中学到的是预测计数与预测连续变量不同。例如,如果我们想预测一个人每天收到多少封邮件,我们可以使用泊松回归。

但是,如果计数很大(例如,如果我们要预测一年中有多少天是晴天),我们可以将其视为连续变量吗?很大时,我们可以使用正态分布来近似泊松分布。我对吗?λ

2个回答

随机变量是计数变量不仅意味着它具有自然数值。所以,一年中晴天的数量不是一个计数随机变量,因为它不是一个计数过程的结果。如果满足一些行政标准,例如至少 5 小时晴朗的阳光,或者其他什么,可能会宣布一天是晴天。它不是独立事件的计数。计数数据的示例是:纽约每天的汽车事故数量。危地马拉每天的死产数量。这些是对独立事件进行计数,可以通过泊松分布或泊松点过程对其进行初步近似建模。我看不到这样的泊松模型潜伏在晴天的后面!例如,在这里查看我的答案:拟合优度以及选择线性回归或泊松的模型在 那里使用的参数与您的情况无关。

回到你的问题,如果“计数很大”。重要的不是大小本身,大计数仍然可能是泊松(但实际上大计数通常是聚集的,并且需要一些比泊松更复杂的模型)。对于一年中晴天的数量,您当然可以尝试普通的线性回归作为起点。

详细说明为什么“晴天数”不是计数变量。首先,使用坎贝尔-斯托克斯记录仪在气象站测量(足够强的)日照小时数,请参阅https://en.wikipedia.org/wiki/Campbell%E2%80%93Stokes_recorder 它们看起来像这样:

Campbell-Stokes 记录仪的图像

并且通过将太阳聚焦在回形针上,并在太阳足够强时在那里燃烧路径来工作。然后必须测量燃烧路径的长度。这给出了一个测量变量,而不是一个计数变量!基本过程是测量,而不是计数。然后通过一些任意(“官僚”)截止将其转换为二进制晴天/非晴天指标。希望这是对我的答案的更好解释!

在化学和原子理论的基础层面,人们可以争辩说世界是离散的而不是连续的。有人可能会争辩说,连续变量本身只是对潜在离散现实非常有用的近似。很明显,可以将计数视为连续变量。我们在实践中一直这样做。

这与泊松近似是否适用于任何特定应用的问题不同。@kjetil 的回答很好地涵盖了这一点。