负二项式/泊松回归中的过度离散和欠离散

机器算法验证 回归 泊松回归 分散不足
2022-03-18 17:59:43

我在 SAS 中执行泊松回归,发现 Pearson 卡方值除以自由度约为 5,表明存在显着的过度离散。因此,我用 proc genmod 拟合了一个负二项式模型,发现 Pearson 卡方值除以自由度为 0.80。这现在是否被认为是分散不足的?如果是这样,如何处理这个问题?我已经阅读了很多关于过度分散的信息,并且相信我知道如何处理这个问题,但是关于如何处理或确定是否存在分散不足的信息很少。有人可以帮忙吗?

2个回答

对于具有均值的泊松分布μ方差也是μ. 在广义线性模型的框架内,这意味着方差函数

V(μ)=μ
为泊松模型。由于许多不同的原因,该模型假设可能是错误的。例如,经常遇到方差大于泊松分布规定的过度分散计数数据。

在回归环境中,方差假设的偏差可以采取多种形式。最简单的是方差函数等于

V(μ)=ψμ
ψ>0一个色散参数这就是准泊松模型。它将给出相同的拟合回归模型,但统计推断 (p值和置信区间)使用估计的离散参数针对过度离散或过度离散进行调整。

方差函数的函数形式也可能是错误的。它可能是二次多项式

V(μ)=aμ2+bμ+c,
说。示例包括二项式、负二项式和伽马模型。选择这些模型中的任何一个作为 Poisson 模型的替代品都会影响拟合回归模型以及随后的统计推断。对于带形状参数的负二项分布λ>0方差函数是
V(μ)=μ(1+μλ).
从中我们可以看出,如果λ我们得到泊松分布的方差函数。

为了确定泊松模型的方差函数是否适合数据,我们可以按照 OP 的建议估计分散参数并检查它是否大约为 1(可能使用正式测试)。这样的测试并没有提出具体的替代方案,但在准泊松模型中可以最清楚地理解。为了检验方差函数的函数形式是否合适,我们可以构建泊松模型的似然比检验 (λ=) 与负二项式模型 (λ<)。请注意,它在原假设下具有非标准分布。或者,我们通常可以使用基于 AIC 的方法来比较非嵌套模型。Poisson 模型中基于回归的过度离散检验探索了一类针对一般方差函数的检验。

但是,我建议首先研究残差图,例如 Pearson 或偏差残差(或其平方值)与拟合值的图。如果方差的函数形式错误,您将在残差图中将其视为漏斗形状(或平方残差的趋势)。如果函数形式正确,即没有漏斗或趋势,则仍然可能存在过度或欠分散,但这可以通过估计分散参数来解释。残差图的好处是它比测试方差函数有什么问题更清楚地表明了。

在 OP 的具体情况下,不能说 0.8 是否表示给定信息的分散不足。与其关注 5 和 0.8 估计,我建议首先研究 Poisson 模型和负二项式模型的方差函数的拟合。一旦确定了方差函数的最合适的函数形式,如果需要,可以在任一模型中包含色散参数,以针对任何额外的过度或不足色散调整统计推断。比如说,如何在 SAS 中轻松做到这一点,不幸的是,我无法提供帮助。

不,它没有——这意味着非常合适(有一些警告)

在这种情况下,Pearson 卡方检验用于评估假设模型形式下估计分布的拟合优度。如果它为您提供的检验统计量值较低(更重要的是相应的 p 值较高),那么这意味着拒绝良好拟合的原假设的证据很弱。这意味着从您的模型中得出的估计分布与经验数据非常吻合,这表明它准确地捕捉到了数据中的离散程度。

现在,作为一个警告,值得注意的是,Pearson 卡方检验并非旨在考虑从广泛的分布类别(例如,使用负二项式回归)估计分布时发生的优化过程模型)。在这种情况下,拟合优度检验的更好选择是似然比检验,因为它考虑了这种优化。然而,在具有大量数据和相对较少参数的情况下,这些应该给出类似类型的推论。