为什么负二项式回归的皮尔逊残差小于泊松回归的残差?

机器算法验证 广义线性模型 残差 负二项分布 泊松回归 分散
2022-03-06 08:30:16

我有这些数据:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

我进行了泊松回归

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

和负二项式回归:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

然后我计算了泊松回归的离散统计:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

负二项式回归:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

有没有人能够在不使用方程式的情况下解释为什么负二项式回归的离差统计量远小于泊松回归的离差统计量?

2个回答

这很简单,但是“不使用方程式”是一个很大的障碍。我可以用文字来解释,但这些文字必然反映方程式。我希望这对你来说是可以接受的/仍然有一些价值。(相关方程并不难。)

有几种类型的残差。 原始残差只是观察到的响应值(在您的情况下为counts)与模型的预测响应值之间的差异。 Pearson 残差除以标准差(您正在使用的特定版本的广义线性模型的方差函数的平方根)。

泊松分布相关的标准差小于负二项式的标准差。因此,当您除以更大的分母时,商会更小。

此外,负二项式更适合您的情况,因为您counts将在总体中均匀分布。也就是说,它们的方差将不等于它们的均值。

对于 Poisson 模型,如果对第个观测的期望为 mu_i,则其方差为,因此 Pearson 残差iYiμiμi

yiμ^iμ^i

其中是均值的估计值。此处解释了MASS中使用的负二项式模型的参数化如果对第个观测的期望是它的方差是,因此皮尔逊残差μ^iYiμiμi+μ2θ

yiμ~iμ~i+μ~2θ

其中是均值的估计值。的值越小(即额外的泊松方差越大),与其泊松等效值相比,残差越小。[但是正如@whuber 所指出的,均值的估计值是不一样的,,因为估计过程根据假设的方差对观察结果进行加权。个预测器模式进行重复测量,它们会更接近,并且通常添加一个参数应该可以更好地适应所有观察结果,尽管我不知道如何严格证明这一点。尽管如此,如果泊松模型成立,您估计的人口数量会更大,所以这不足为奇。]μ~θμ^μ~i