泊松回归与对数最小二乘回归?

机器算法验证 回归 泊松分布 广义线性模型
2022-01-20 19:42:36

泊松回归是具有对数链接函数的GLM 。

对非正态分布计数数据进行建模的另一种方法是通过获取日志(或者更确切地说,log(1+count) 来处理 0)进行预处理。如果您对对数计数响应进行最小二乘回归,这与泊松回归有关吗?它可以处理类似的现象吗?

3个回答

一方面,在泊松回归中,模型方程的左侧是预期计数的对数:log(E[Y|x]).

另一方面,在“标准”线性模型中,左侧是正态响应变量的期望值:E[Y|x]. 特别地,链接函数是恒等函数。

现在,让我们说Y是一个泊松变量,您打算通过获取日志对其进行规范化:Y=log(Y). 因为Y应该是正常的,您计划拟合左侧的标准线性模型E[Y|x]=E[log(Y)|x]. 但是,总的来说,E[log(Y)|x]log(E[Y|x]). 因此,这两种建模方法是不同的。

我看到两个重要的区别。

首先,预测值(在原始尺度上)表现不同;在对数线性最小二乘中,它们代表条件几何平均值;在对数泊松模型中,表示条件均值。由于此类分析中的数据通常向右倾斜,因此条件几何平均数会低估条件平均数。

第二个区别是隐含分布:对数正态与泊松。这与残差的异方差结构有关:残差方差与平方期望值(对数正态)成正比,残差方差与期望值成正比(泊松)。

一个明显的区别是泊松回归将产生整数作为点预测,而对数计数线性回归可以产生非整数。