负二项式回归的解释θθ

机器算法验证 广义线性模型 造型 负二项分布 零通胀
2022-04-11 01:35:46

首先,之前有人问过一个非常相似的问题但是这个问题的答案并没有解释 theta 的高/低值是什么意思。这是我试图弄清楚 theta 的高/低值意味着什么的方法。所以请不要关闭这个问题!

假设您已经创建了两个模型:负二项式回归 (NB) 和零膨胀负二项式回归 (ZINB)。NB 回归的 theta 为 0.5,ZINB 回归的 theta 为 2。据我了解,ZINB 回归中的 theta 越高表明残差的方差越大,因此负二项分布模型假设具有更细长的形状。这个对吗?任何人都可以提供更精确的 theta 值定义,但不使用方程式吗?

我还迅速勾勒出我的理解的可视化。NB 中的残差更分散,这意味着 theta 更小,负二项分布的形状更胖。ZINB 中的残差不太分散,这意味着 theta 更大,负二项分布的形状更细长。

在此处输入图像描述

1个回答

θ在 GLM 中被称为色散参数。但这究竟意味着什么?让我用一个例子来解释参数是什么。假设你参加了一个由混合教师组成的聚会。作为一名统计学家,您正在寻找另一位统计学家。假设是您成功找到统计学家的概率,是您“随机”接近并与之交谈的人数,直到您找到第一位统计学家。遵循具有概率质量函数的几何分布:θpXX

f(x)=P(X=x)=(1p)x1p

现在考虑另一个例子。您有兴趣与 3 位不同的统计学家交谈。然后让我们将 X 表示为您“随机”选择的人数,直到您找到统计学家。现在遵循具有概率质量函数的负二项分布r=3X

f(x)=P(X=x)=(x1r1)(1p)xrpr

因此,参数,即概率质量函数中的,表示成功试验的次数。为1时,服从几何分布;否则,X 服从负二项分布。θrX

那么改变是如何影响分布的形状的呢?在给的情况下,更大的会导致的扩展更大,因此是色散参数。如果您使用 R,您可能希望通过使用or插入不同的值来感受一下θpθXdnbinomrnbinom