泊松回归:观察次数和偏移量如何影响 beta 的方差?

机器算法验证 广义线性模型 抵消
2022-04-06 16:09:41

背景:在带有偏移的泊松回归中,就像在这个答案中一样,@Hong Ooi 写道

您的基础随机变量仍然是Y, 但除以ε 我们已经将模型方程的 LHS 转换为每单位曝光的事件率。但是这个除法也改变了响应的方差,所以我们必须加权ε拟合模型时。

问:自曝光以来ε在拟合模型时考虑了这一点,这是否意味着可以将(多个)观察结果划分为具有新曝光的多个观察结果εi, 在哪里iεi=ε,而不影响参数估计的方差β?

尝试:直觉上我会认为这样做会给我更多的“观察”,这会减少每个人的方差β估计,即使我们权衡ε拟合模型时。

通过将观察分为多个观察,我的意思是: 在此处输入图像描述

更新:不久前@Scortchi 以十倍写了这个:

如果您使用完全似然公式(泊松 + 偏移量),则不会有任何变化 - 10 小时内 5 次计数与 6 小时内 1 次计数和 4 小时内 4 次计数相同。如果您使用准泊松公式,您将获得相同的点估计值,但当您对色散参数的估计值发生变化时,标准误差会发生变化。

1个回答

对于在对数线性模型中估计的泊松似然,观测值的数量不会影响 beta 的方差。这是因为存在均值方差关系。泊松回归模型的系数的方差-协方差估计由下式给出:

var(β^)=(XTdiag(y^)X)T

注意这里没有使用偏移量。方差结构由通常的A基于精确似然推理的矩阵公式,其中方差是预测的模型方差(方差是泊松模型的均值)。

如果您考虑均值等于方差达到恒定值的准泊松模型,这一切都会崩溃。必须估计该常数,即离散度,并导致推断,这确实取决于观察的数量和格式。在这种情况下,每个观察都必须具有切实的意义和基本的复制水平,这是研究设计所特有的。一个非常说明性的例子来自 Agresti 的分类数据分析书和马蹄蟹交配的例子。