为什么 GLM Poisson 模型预测计数数据的负值?

机器算法验证 r 广义线性模型 泊松分布 负二项分布 计数数据
2022-04-03 01:49:03

我有一个平均值 = 3.2 的计数数据集,并且有点零膨胀。 在此处输入图像描述

X1      X2      X3  Y
Food3   Low     13  2
Food3   High    27  1
Food2   Low     13  1
Food1   Medium  27  1
Food1   High    20  8
Food3   Low     20  1
Food1   High    13  5
Food2   Medium  13  4
Food1   Low     13  0
Food2   High    20  6
Food1   Medium  13  2
Food1   Low     13  1
Food1   Low     13  1
Food3   Low     13  1
Food2   Medium  13  5
Food1   Medium  27  0
Food3   Low     13  2
Food1   Medium  20  3
Food3   Medium  13  7
Food1   Low     20  1
Food3   Medium  13  5

我用泊松拟合了 GLM 模型:

model1 <- glm(formula=Y~X1+X2+X3+X1:X2+X1:X3+X2:X3, 
              family=poisson(link="log"), data=Df)

summary(model1)输出显示有点过度分散,我还尝试拟合 glm.nb() 负二项式 GLM。

在此处输入图像描述

但是这个模型的问题是,对于泊松 GLM 和负二项式都有一些负面预测。这些是怎么来的,我应该如何解决这个问题?

在此处输入图像描述

1个回答

Poisson GLM 拟合模型yiPois(μi)log(μi)=xiβ,即日志链接期望μi到所谓的“线性预测器”xiβ, 通常表示ηi在 GLM 文献中。因此,基于系数估计,至少有两种类型的预测可能是有意义的β^:预测的链接η^i=xiβ^和预测的期望μ^i=exp(η^i)=exp(xiβ^). 后者通常对应用程序更感兴趣,而前者通常用于(诊断)图形,因为它们是线性比例的。

在 R 中,很容易为glm对象提供两种类型的预测,分别为predict(model1, type = "link")(默认)和predict(model1, type = "response")前者用于图形显示plot(model1)