我有一个关于负二项式回归的问题:假设您有以下命令:
require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)
(请注意,汽车是 R 中可用的数据集,我并不关心这个模型是否有意义。)
我想知道的是:如何解释变量theta
(在调用底部返回summary
)。这是 negbin 分布的形状参数吗?是否可以将其解释为偏度的度量?
我有一个关于负二项式回归的问题:假设您有以下命令:
require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)
(请注意,汽车是 R 中可用的数据集,我并不关心这个模型是否有意义。)
我想知道的是:如何解释变量theta
(在调用底部返回summary
)。这是 negbin 分布的形状参数吗?是否可以将其解释为偏度的度量?
我的一位学生在我的建模计数数据课程中向我推荐了这个网站。似乎有很多关于负二项式模型的错误信息,尤其是关于色散统计和色散参数。
指示计数模型额外分散的分散统计量是 Pearson 统计量除以剩余自由度。是位置或形状参数。对于计数模型,比例参数设置为 1。Rglm
和glm.nb
是色散参数或辅助参数。我在我的书《负二项式回归》 (2007 年,剑桥大学出版社)的第一版中将其称为异质性参数,但在我的 2011 年第二版中将其称为色散参数。我在即将出版的即将出版的《建模计数数据(剑桥)》一书中对 NB 模型中的各种术语给出了完整的理由。它应该在 7 月 15 日之前出售(平装本)。
glm.nb
并且glm
在他们如何定义色散参数方面是不寻常的。方差为而不是,即直接参数化。这是 NB 在 SAS、Stata、Limdep、SPSS、Matlab、Genstat、Xplore 和大多数软件中建模的方式。当您将glm.nb
结果与其他软件结果进行比较时,请记住这一点。的作者glm
(来自 S-plus)glm.nb
显然从 McCullagh & Nelder 那里获得了间接关系,但 Nelder(他是 1972 年 GLM 的联合创始人)在 1993 年为 Genstat 编写了他的 kk 系统附加组件,其中他认为直接关系是首选。从 1993 年初到他去世的前一年,他和他的妻子过去每隔一年都会在亚利桑那州探望我和我的家人。我们非常彻底地讨论了这个问题,因为我在 1992 年末为 Stata 和 Xplore 软件以及 1994 年为 SAS 宏编写的 glm 程序中有直接关系。
CRAN 上msme 包中的nbinomial
函数允许用户使用直接(默认)或间接(作为选项,复制 glm.nb)参数化,并提供 Pearson 统计和残差输出。输出还显示分散统计,并允许用户参数化(或者),给出分散的参数估计。这使您可以评估哪些预测变量会增加模型的额外离散度。这种类型的模型通常被称为异构负二项式。我会在新书出来之前 把nbinomial
函数放到COUNT 包里,再加上一些新的函数和图形脚本。
是的,theta
是负二项分布的形状参数,不,您不能真正将其解释为偏度的度量。更确切地说:
theta
,但也取决于均值theta
可以保证你没有歪斜如果我没有搞砸,在负二项式回归中使用的mu
/参数化中,偏度是theta
在这种情况下,通常被解释为相对于泊松分布的过度分散的度量。负二项式的方差为, 所以与泊松相比,确实控制了过度的可变性(这将是),而不是偏斜。