为什么泊松回归用于计数数据?

机器算法验证 计数数据 泊松回归
2022-02-14 20:07:12

我知道对于某些数据集(例如投票),它的表现更好。为什么使用泊松回归而不是普通的线性回归或逻辑回归?它的数学动机是什么?

4个回答

泊松分布数据本质上是整数值,这对计数数据有意义。普通最小二乘法(OLS,你称之为“线性回归”)假设真值通常分布在期望值周围,并且可以取任何实值,正值或负值,整数或分数,等等。最后,逻辑回归仅适用于 0-1 值(TRUE-FALSE 值)的数据,例如“有病”与“没有病”。因此,泊松分布对计数数据最有意义。

也就是说,对于平均值高于 30 左右的数据,正态分布通常是泊松分布的一个相当好的近似值。在回归框架中,您有影响计数的预测变量,具有正态分布的 OLS 可能更容易拟合并且实际上更一般,因为泊松分布和回归假设均值和方差相等,而 OLS可以处理不相等的均值和方差 - 例如,对于具有不同均值和方差的计数数据模型,可以使用负二项分布

本质上,这是因为线性回归和逻辑回归对计数结果做出了错误的假设。把你的模型想象成一个非常愚蠢的机器人,它会无情地听从你的命令,不管这些命令多么荒谬;它完全缺乏评估你告诉它的内容的能力。如果你告诉你的机器人,像选票这样的东西是从负无穷到无穷连续分布的,这就是它认为选票的样子,它可能会给你一些荒谬的预测(罗斯佩罗将在即将到来的选举中获得 -10.469 票)。

相反,泊松分布是离散的和正的(或零......零算为正,是吗?)。至少,这将迫使你的机器人给你在现实生活中可能发生的答案。它们可能是也可能不是好的答案,但它们至少会从可能的“投票数”集合中得出。

当然,泊松有其自身的问题:它假设投票计数变量的均值也将与其方差相同。我不知道我是否真的见过一个非人为的例子,这是真的。幸运的是,聪明人已经提出了其他分布也是正的和离散的,但是添加了参数以允许方差,呃,变化(例如,负二项式回归)。

中发生事件的概率,你可以显示区间中的预期事件数是,方差也是概率分布T=1λT=tλ.tλ.t

p(N=n)=(λ.t)neλ.tn!

通过这个和最大似然法和广义线性模型(或其他方法),您可以得到泊松回归

简单来说,泊松回归是一种模型,它符合基本随机过程以模型中其他变量确定的速率(即每单位时间的数量)生成少量事件的假设。

其他人基本上说了同样的话,但我想我会添加我的看法。这取决于您到底在做什么,但很多时候我们喜欢将手头的问题/数据概念化。与仅构建一个可以很好预测的模型相比,这是一种稍微不同的方法。如果我们试图对正在发生的事情进行概念化,那么使用仅将质量置于整数值的非负分布对计数数据进行建模是有意义的。我们也有许多结果,基本上可以归结为在某些条件下计数数据确实作为泊松分布。因此,如果我们的目标是概念化问题,那么使用泊松作为响应变量确实很有意义。其他人指出了为什么这是一个好主意的其他原因,但是如果您真的试图将问题概念化并真正了解如何生成您看到的数据,那么在某些情况下使用泊松回归会很有意义。