在比较二项式模型时是否应该使用相同的过度离散参数?

机器算法验证 二项分布 模型选择 过拟合 过度分散 β-二项分布
2022-03-24 11:35:59

McCullagh & Nelder,第 2 版,第 91 页声称要进行“公平”比较,最好使用通常来自最复杂模型的过度离散参数的单一估计。我注意到在这个SAS 示例中做了同样的事情。Burnham 和 Anderson(第 2 版,第 68 页)也坚持只使用全局模型来估计色散参数,然后将其插入更小的模型中。

有谁知道“公平”是什么意思,为什么重新估计方差参数是不公平的?如果(很可能)最复杂的模型被过度拟合,那么它的偏差太小,这意味着分散参数被低估了。对所有模型使用有偏估计仍然是一个好主意吗?

McCullagh & Nelder (p 127) 承认估计色散参数类似于估计相应地,我回忆了 Neter 等人(第 4 版,第 342 页)中的类似推理,其中标准。我们建议最大的模型提供“的无偏估计量”,我们应该使用它来评估较小模型的偏差-方差权衡。σ2Cpσ2

对于线性和二项式设置,上述所有作者都同意必须在估计色散参数之前正确获取模型的结构部分。但是,如果我们知道正确的结构部分是什么,就不清楚为什么我们应该继续进行模型选择而不是仅仅使用全局模型。

另一个矛盾是,如果我们想使用 AIC 和类似的标准来选择线性模型,那么我从未听说过使用全局模型估计然后将其插入更小的模型的建议。同样,我还没有听说过在负二项式回归中对分散参数的这种建议。σ2

下面的一些评论表明,问题在于在二项式回归中不是通过 MLE 估计的,但在负二项式回归中它是。那么,只要有一种通过 MLE 估计色散的方法,就没有人会遇到允许色散参数在模型之间变化的问题,反之亦然?例如,如果我们使用威廉姆斯方差函数ϕ

Var[Yi]=miπi(1πi)[1+ϕ(mi1)]

其中由 IWLS 估计,那么我们必须对池中的所有模型使用相同的但是,如果我们应用可以通过 MLE 估计的 Beta-binomial 回归,假设,那么允许在模型之间变化是可以的。这种推理的问题在于 Beta-binomial 是 Williams 方差函数的一个特例,其中仅仅因为它不是由“纯” MLE 估计的,就不允许的 IWLS 和 MLE 估计ϕϕαi+βi=ccϕ=1/(c+1)ϕϕ无论如何可能很接近,甚至可能是相同的,因为实际上 MLE 通常是通过 IWLS 实现的(例如 R 中的负二项式回归)。

2个回答

在 McCullagh & Nelder 的第 90 页上,他们指出许多协变量选择程序,包括 AIC 最小化和使用 F 统计量的测试,等效于最小化这里是偏差,是数据点数量的函数,是协变量的数量,是色散参数。Q=D+αqϕDαqϕ

他们引用了阿特金森的一篇论文,我无法获得这篇声明。从介绍来看,阿特金森的实际陈述似乎是要最小化的数量是,其中是模型的最大化对数似然。请注意关系,其中是常数,来自 McCullagh 和 Nelder 的第 33 和 34 页。在我看来,为了从阿特金森那里获得他们的公式,他们已经假设在所有候选模型中都是相同的。L+αq/2LD/ϕ=2L+CCϕ

我认为这里基本上有两个问题。首先,如果您以 MLE 以外的其他方式估计色散参数,则甚至不清楚是否定义了阿特金森量,因为应该是最大化的对数似然。如果您像 McCullagh 和 Nelder 所做的那样估计二项分布的色散参数,那么您已经没有使用 MLE 来拟合模型的所有参数。L

其次,您可能仍然希望通过最小化候选模型中的来使用这种标准。即使没有通过最大化似然性获得回归参数,也可以为模型计算如果减小)和复杂性(随着增加)之间的权衡这似乎是 McCullagh 和 Nelder 所建议的。D/(2ϕ)+αq/2DϕD/ϕαq

然而,如果在所有候选模型中的估计值不是恒定的,那么即使是这个启发式值也会丢失。不再仅仅衡量每个候选模型与数据的拟合程度,还受到每个模型的离散参数估计变化的影响,复杂度-拟合权衡的性质变得不太清楚。事实上,如果您的比例参数估计值的差异足够大,则最小化这个数量相当于最小化估计的比例参数。ϕD/ϕ

当然,每个模型的尺度参数估计将取决于参数的数量和模型的拟合度。的方法所隐含的复杂性-拟合折衷会产生比上述数量更好的模型,那么允许它针对每个模型而变化,或者只是使用它直接。我会对这种信念持怀疑态度,因为任何估计的方法都可能不是一个好的模型选择程序。ϕϕ

我怀疑推荐的原因是,在过去,首先拟合模型,然后计算离散参数,然后针对过度离散调整可能性。为具有调整色散参数的 LRT 导出合适的测试统计数据似乎很困难,所以人们可能会说:无论如何,我们将开发一个以固定色散为条件的测试,仅此而已。

尽管如此,保持色散固定对我来说似乎很奇怪。正如您所说,最复杂的模型可能更适合数据,因此将其分散参数也用于更简单的模型应该会导致次优可能性,这似乎会产生对更大复杂性的偏见。

在我看来,一种利用现代计算能力的更明智的方法似乎可以完全拟合包括色散在内的两种模型,然后进行模拟 LRT 进行比较。