为什么对数线性分析似乎忽略了泊松回归等分散假设?

机器算法验证 假设 计数数据 泊松回归 对数线性 分散
2022-04-08 22:54:03

据我了解,对数线性分析是基于使用泊松回归。这是我从各种在线资源中了解到的,比如这个在线教程这篇文章的介绍:“在本章中,我们研究泊松回归模型在列联表分析中的应用。这可能是最流行的应用之一对数线性模型 [...] ”。

关于对数线性分析的维基百科文章列出了对数线性分析的三个假设:

  1. 观察是独立和随机的;
  2. 观察到的频率正态分布于重复样本上的预期频率 [...]
  3. 响应变量期望值的对数是解释变量的线性组合。[...]

但是,除非我误读了它,否则它没有提到平均值应该等于方差(又名等分散)的假设,正如使用泊松回归时通常假设的那样:

均值=方差根据定义,泊松随机变量的均值必须等于其方差。

我错过了什么?

在使用泊松回归进行对数线性分析时,我可以简单地忽略等分散假设吗?例如,是否存在被检测为显着的系数实际上不显着的风险——反之亦然?

或者是否暗示我应该在不满足等分散假设时使用替代方案,例如负二项式或广义泊松回归?

谢谢,

1个回答

引用 Agresti 的“分类数据分析”第二版的第 4.3.3 节

过度分散在计数建模中很常见。当均值模型正确但真实分布不是泊松时,模型参数的 ML 估计值仍然一致,但标准误不正确。

他继续描述处理过度离散的负二项式和准似然方法。所以是的,对于这些模型,它(应该)暗示以考虑拟合值和方差之间关系的方式进行。

在计数建模的介绍性解释中省略这个问题与从线性回归中的同方差性和正态误差分布的假设开始并没有真正的不同。您从简单开始,然后从那里构建。