Poisson GLM 怎么可能接受非整数?

机器算法验证 r 广义线性模型 泊松分布 泊松回归
2022-02-14 14:21:53

Poisson GLM 接受非整数的事实让我感到非常震惊!看:

数据(内容data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

R脚本:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

结果年份指数与“预期”一样,即1-2-4以年为单位2001-2003

但是泊松 GLM 怎么可能采用非整数呢?泊松分布一直都是整数!

2个回答

当然,从技术上讲,泊松分布仅针对整数定义是正确的。但是,统计建模是一种良好近似的艺术(“所有模型都是错误的”),有时将非整数数据视为 [近似] 泊松是有意义的。

例如,如果您派出两个观察者来记录相同的计数数据,则可能会发生两个观察者在计数上并不总是一致的情况——一个可能会说某件事发生了 3 次,而另一个说它发生了 4 次。在拟合泊松系数时可以选择使用 3.5,而不是必须在 3 和 4 之间进行选择。

在计算上,泊松中的阶乘可能会使处理非整数变得困难,但存在阶乘的连续推广此外,一旦简化表达式,对泊松执行最大似然估计甚至不涉及阶乘函数。

回复y, 如果你假设其期望的对数是预测变量的线性组合则可以通过求解泊松模型的分数方程来获得 回归系数 当然一致性并不意味着任何测试或置信区间的有效性;可能性尚未明确。x

EYi=expβTxi
β
inxi(yiexpβTxi)=0

这继承了我们在学校学习的矩方法,并导致了广义估计方程的方法。

@Aaron 指出您实际上在代码中使用了准泊松拟合。这意味着方差与均值成正比

VarYi=ϕEYi

具有可以从数据中估计系数估计值相同,但它们的标准误差更宽;这是一种更灵活,因此更普遍有用的方法。(另请注意,参数方差-协方差矩阵的三明治估计量通常用于此类情况,以提供稳健的标准误差。)ϕ