机器算法验证 - 用 R 拟合的负二项式回归中的 theta 是多少？ - 吾爱随笔录

用 R 拟合的负二项式回归中的 theta 是多少？

机器算法验证回归广义线性模型负二项分布

2022-02-04 22:34:08

我有一个关于负二项式回归的问题：假设您有以下命令：

require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)

（请注意，汽车是 R 中可用的数据集，我并不关心这个模型是否有意义。）

我想知道的是：如何解释变量theta（在调用底部返回summary）。这是 negbin 分布的形状参数吗？是否可以将其解释为偏度的度量？

3个回答

我的一位学生在我的建模计数数据课程中向我推荐了这个网站。似乎有很多关于负二项式模型的错误信息，尤其是关于色散统计和色散参数。

指示计数模型额外分散的分散统计量是 Pearson 统计量除以剩余自由度。 $\mu$ 是位置或形状参数。对于计数模型，比例参数设置为 1。Rglm和glm.nb $\theta$ 是色散参数或辅助参数。我在我的书《负二项式回归》（2007 年，剑桥大学出版社）的第一版中将其称为异质性参数，但在我的 2011 年第二版中将其称为色散参数。我在即将出版的即将出版的《建模计数数据（剑桥）》一书中对 NB 模型中的各种术语给出了完整的理由。它应该在 7 月 15 日之前出售（平装本）。

glm.nb并且glm在他们如何定义色散参数方面是不寻常的。方差为 $\mu+\frac{\mu^2}{\theta}$ 而不是 $\mu+\alpha\mu^2$ ，即直接参数化。这是 NB 在 SAS、Stata、Limdep、SPSS、Matlab、Genstat、Xplore 和大多数软件中建模的方式。当您将glm.nb结果与其他软件结果进行比较时，请记住这一点。的作者glm（来自 S-plus）glm.nb显然从 McCullagh & Nelder 那里获得了间接关系，但 Nelder（他是 1972 年 GLM 的联合创始人）在 1993 年为 Genstat 编写了他的 kk 系统附加组件，其中他认为直接关系是首选。从 1993 年初到他去世的前一年，他和他的妻子过去每隔一年都会在亚利桑那州探望我和我的家人。我们非常彻底地讨论了这个问题，因为我在 1992 年末为 Stata 和 Xplore 软件以及 1994 年为 SAS 宏编写的 glm 程序中有直接关系。

CRAN 上msme 包中的nbinomial函数允许用户使用直接（默认）或间接（作为选项，复制 glm.nb）参数化，并提供 Pearson 统计和残差输出。输出还显示分散统计，并允许用户参数化 $\alpha$ （或者 $\theta$ )，给出分散的参数估计。这使您可以评估哪些预测变量会增加模型的额外离散度。这种类型的模型通常被称为异构负二项式。我会在新书出来之前把nbinomial函数放到COUNT 包里，再加上一些新的函数和图形脚本。

是的，theta是负二项分布的形状参数，不，您不能真正将其解释为偏度的度量。更确切地说：

偏度取决于的值theta，但也取决于均值
没有任何价值theta可以保证你没有歪斜

如果我没有搞砸，在负二项式回归中使用的mu/参数化中，偏度是theta

S k e w (N B) = \frac{θ + 2 μ}{\sqrt{θ μ (θ + μ)}} = \frac{1 + 2 \frac{μ}{θ}}{\sqrt{μ (1 + \frac{μ}{θ})}}

${\rm Skew}(NB) = \frac{\theta+2\mu}{\sqrt{\theta\mu(\theta+\mu)}} = \frac{1 + 2\frac{\mu}{\theta}}{\sqrt{\mu(1+\frac{\mu}{\theta})}}$

在这种情况下， $\theta$ 通常被解释为相对于泊松分布的过度分散的度量。负二项式的方差为 $\mu + \mu^2/\theta$ ，所以 $\theta$ 与泊松相比，确实控制了过度的可变性（这将是 $\mu$ )，而不是偏斜。

glm 参考负二项式：

维基百科负二项式'r'是glm的'theta'，这意味着glm'theta'是形状参数。简单来说，glm 的“theta”是失败的次数。

其它你可能感兴趣的问题

上一篇为什么对称正定 (SPD) 矩阵如此重要？下一篇何时使用固定效果与使用集群 SE？