用 R 拟合的负二项式回归中的 theta 是多少?

机器算法验证 回归 广义线性模型 负二项分布
2022-02-04 22:34:08

我有一个关于负二项式回归的问题:假设您有以下命令:

require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)

(请注意,汽车是 R 中可用的数据集,我并不关心这个模型是否有意义。)

我想知道的是:如何解释变量theta(在调用底部返回summary)。这是 negbin 分布的形状参数吗?是否可以将其解释为偏度的度量?

3个回答

我的一位学生在我的建模计数数据课程中向我推荐了这个网站。似乎有很多关于负二项式模型的错误信息,尤其是关于色散统计和色散参数。

指示计数模型额外分散的分散统计量是 Pearson 统计量除以剩余自由度。μ是位置或形状参数。对于计数模型,比例参数设置为 1。Rglmglm.nb θ是色散参数或辅助参数。我在我的书《负二项式回归》 (2007 年,剑桥大学出版社)的第一版中将其称为异质性参数,但在我的 2011 年第二版中将其称为色散参数。我在即将出版的即将出版的《建模计数数据(剑桥)》一书中对 NB 模型中的各种术语给出了完整的理由。它应该在 7 月 15 日之前出售(平装本)。

glm.nb并且glm在他们如何定义色散参数方面是不寻常的。方差为μ+μ2θ而不是μ+αμ2,即直接参数化。这是 NB 在 SAS、Stata、Limdep、SPSS、Matlab、Genstat、Xplore 和大多数软件中建模的方式。当您将glm.nb结果与其他软件结果进行比较时,请记住这一点。的作者glm(来自 S-plus)glm.nb显然从 McCullagh & Nelder 那里获得了间接关系,但 Nelder(他是 1972 年 GLM 的联合创始人)在 1993 年为 Genstat 编写了他的 kk 系统附加组件,其中他认为直接关系是首选。从 1993 年初到他去世的前一年,他和他的妻子过去每隔一年都会在亚利桑那州探望我和我的家人。我们非常彻底地讨论了这个问题,因为我在 1992 年末为 Stata 和 Xplore 软件以及 1994 年为 SAS 宏编写的 glm 程序中有直接关系。

CRAN 上msme 包中的nbinomial函数允许用户使用直接(默认)或间接(作为选项,复制 glm.nb)参数化,并提供 Pearson 统计和残差输出。输出还显示分散统计,并允许用户参数化α(或者θ),给出分散的参数估计。这使您可以评估哪些预测变量会增加模型的额外离散度。这种类型的模型通常被称为异构负二项式。我会在新书出来之前 把nbinomial函数放到COUNT 包里,再加上一些新的函数和图形脚本。

是的,theta是负二项分布的形状参数,不,您不能真正将其解释为偏度的度量。更确切地说:

  • 偏度取决于 的值theta,但也取决于均值
  • 没有任何价值theta可以保证你没有歪斜

如果我没有搞砸,在负二项式回归中使用的mu/参数化中,偏度是theta

Skew(NB)=θ+2μθμ(θ+μ)=1+2μθμ(1+μθ)

在这种情况下,θ通常被解释为相对于泊松分布的过度分散的度量。负二项式的方差为μ+μ2/θ, 所以θ与泊松相比,确实控制了过度的可变性(这将是μ),而不是偏斜。

glm 参考负二项式: 在此处输入图像描述

维基百科负二项式'r'是glm的'theta',这意味着glm'theta'是形状参数。简单来说,glm 的“theta”是失败的次数。