泊松/负二项式回归中的偏移量在哪里?

机器算法验证 回归 负二项分布 泊松回归 抵消
2022-01-30 04:34:01

(首先,确认一下,偏移变量在泊松和负二项式回归中的作用方式基本相同,对吧?)

阅读有关偏移变量的使用的信息,在我看来,大多数消息来源都建议将该变量作为一个选项包含在统计包中(Stata 中的 exp() 或 R 中的 offset())。如果您正在对计数数据进行建模并且计数可能发生的数量有限,那么这在功能上是否与将结果变量转换为比例相同?我的示例是查看员工解雇,我相信这里的偏移量只是 log(员工人数)。

作为一个额外的问题,我无法概念化前两个选项之间的区别(包括作为软件中的选项的曝光和将 DV 转换为比例)以及将 RHS 上的曝光作为对照。这里的任何帮助将不胜感激。

2个回答

回想一下,偏移量只是一个预测变量,其系数固定为 1。因此,使用带有对数链接的泊松回归的标准设置,我们有:

logE(Y)=βX+logE

其中是偏移/曝光变量。这可以重写为E

logE(Y)logE=βX
logE(Y/E)=βX

您的基础随机变量仍然是,但通过除以,我们将模型方程的 LHS 转换为每单位曝光的事件但是这种划分也改变了响应的方差,所以我们在拟合模型时YEE

R中的示例:

library(MASS) # for Insurance dataset

# modelling the claim rate, with exposure as a weight
# use quasipoisson family to stop glm complaining about nonintegral response
glm(Claims/Holders ~ District + Group + Age,
    family=quasipoisson, data=Insurance, weights=Holders)

Call:  glm(formula = Claims/Holders ~ District + Group + Age, family = quasipoisson, 
    data = Insurance, weights = Holders)

Coefficients:
(Intercept)    District2    District3    District4      Group.L      Group.Q      Group.C        Age.L        Age.Q        Age.C  
  -1.810508     0.025868     0.038524     0.234205     0.429708     0.004632    -0.029294    -0.394432    -0.000355    -0.016737  

Degrees of Freedom: 63 Total (i.e. Null);  54 Residual
Null Deviance:      236.3 
Residual Deviance: 51.42        AIC: NA


# with log-exposure as offset
glm(Claims ~ District + Group + Age + offset(log(Holders)),
    family=poisson, data=Insurance)

Call:  glm(formula = Claims ~ District + Group + Age + offset(log(Holders)), 
    family = poisson, data = Insurance)

Coefficients:
(Intercept)    District2    District3    District4      Group.L      Group.Q      Group.C        Age.L        Age.Q        Age.C  
  -1.810508     0.025868     0.038524     0.234205     0.429708     0.004632    -0.029294    -0.394432    -0.000355    -0.016737  

Degrees of Freedom: 63 Total (i.e. Null);  54 Residual
Null Deviance:      236.3 
Residual Deviance: 51.42        AIC: 388.7

偏移量对 Poisson 和 NB 的作用类似。偏移量有两个功能。对于泊松模型,事件的实际数量定义了方差,因此这是必需的。它还提供分母,因此您可以比较费率。它没有统一。

仅使用比率会弄乱标准错误。拥有一个模型,可以像大多数泊松回归模型函数一样处理偏移量,同时处理标准误差和比较率。