GLM:验证分配和链接功能的选择

机器算法验证 回归 广义线性模型 造型 链接功能
2022-01-26 09:14:27

我有一个采用高斯分布和对数链接函数的广义线性模型。拟合模型后,我检查残差:QQ 图、残差与预测值、残差直方图(承认需要谨慎)。一切看起来都很好。这似乎表明(对我而言)高斯分布的选择是非常合理的。或者,至少,残差与我在模型中使用的分布一致。

Q1 : 说它验证了我的发行选择是否太过分了?

我选择了一个日志链接函数,因为我的响应变量总是积极的,但我想要某种确认它是一个不错的选择。

Q2 : 是否有任何测试,例如检查分布选择的残差,可以支持我选择链接功能?(选择链接功能对我来说似乎有点武断,因为我能找到的唯一指导方针非常模糊和手摇,大概是有充分理由的。)

2个回答

说它验证了我的分发选择是否太过分了?

这有点取决于你所说的“验证”到底是什么意思,但我会说“是的,这太过分了”,就像你不能说“空值被证明是真的”一样,(尤其是带有零点,但至少在某种意义上更普遍)。你只能说“好吧,我们没有强有力的证据证明它是错误的”。但无论如何,我们并不期望我们的模型是完美的,它们是模型重要的是,正如 Box & Draper 所说,“它们有多大的错误才没有用处?

这两个前面的句子中的任何一个:

这似乎表明(对我而言)高斯分布的选择是非常合理的。或者,至少,残差与我在模型中使用的分布一致。

更准确地描述您的诊断表明的内容——不是带有日志链接的高斯模型是正确的——而是它是合理的,或者与数据一致。

我选择了一个日志链接函数,因为我的响应变量总是积极的,但我想要某种确认它是一个不错的选择。

如果你知道它一定是正的,那么它的平均值一定是正的。选择至少与此一致的模型是明智的。我不知道这是否是一个不错的选择(可能会有更好的选择),但这是一个合理的做法;这很可能是我的起点。[但是,如果变量本身一定是正数,我的第一个想法往往是带有对数链接的 Gamma,而不是 Gaussian。“必然为正”确实暗示了随均值变化的偏度和方差。]

Q2:是否有任何测试,例如检查分布选择的残差,可以支持我选择链接函数?

听起来您的意思不是“正式假设检验”中的“测试”,而是“诊断检查”。

无论哪种情况,答案都是肯定的。

一种正式的假设检验是 Pregibon 的链接优度检验[1]。

这是基于将链接函数嵌入到 Box-Cox 族中,以便对 Box-Cox 参数进行假设检验。

另见 Breslow (1996)[2] 中对 Pregibon 检验的简要讨论(见第 14 页)。

但是,我强烈建议坚持诊断路线。如果你想检查一个链接功能,你基本上是在链接规模上断言,η=g(μ)是线性的x是模型中的,因此一项基本评估可能会查看针对预测变量的残差图。例如,

工作残差riW=(yiμ^i)(ημ)

(我倾向于这个评估),或者可能通过查看部分残差中的线性偏差,每个预测变量都有一个图(例如,参见 Hardin 和 Hilbe,广义线性模型和扩展,第 2 版。第 4.5节) .4 p54,用于定义),

rkiT=(yiμ^i)(ημ)+xikβ^k

=riW+xikβ^k

在数据允许通过链接函数进行转换的情况下,您可以以与线性回归相同的方式寻找线性(尽管您可能会留下偏度和可能的异方差)。

在分类预测变量的情况下,链接函数的选择更多是为了方便或可解释性,拟合应该是相同的(因此无需评估它们)。

您还可以根据 Pregibon 的方法进行诊断。

这些并没有形成详尽的清单。您可以找到讨论的其他诊断。

[也就是说,我同意 gung 的评估,即在可能的情况下,链接功能的选择最初应该基于理论考虑。]

另请参阅这篇文章中的一些讨论,这至少是部分相关的。

[1]:Pregibon, D. (1980),
“广义线性模型的链接测试的优度”
,皇家统计学会杂志。系列 C(应用统计)
卷。29,第 1 期,第 15-23 页。

[2]:Breslow NE (1996),
“广义线性模型:检验假设和强化结论”,
Statistica Applicata 8 , 23-41。
pdf

  1. 这是关于您是否可以断言零假设的常见问题的变体。在您的情况下,空值将是残差是高斯的,并且您的图(qq 图、直方图等)的目视检查构成了“测试”。(对于断言空值问题的一般概述,在这里阅读我的答案可能会有所帮助:为什么统计学家说不显着的结果意味着“你不能拒绝空值”而不是接受原假设?)在您的具体情况下,您可以说这些图显示您的残差与您对正态性的假设一致,但它们并没有“验证”该假设。

  2. 您可以使用不同的链接函数拟合您的模型并进行比较,但是没有单独测试单个链接函数(这显然是不正确的,请参阅@Glen_b 的答案)。在我对 Logit 和 Probit 模型之间的差异的回答中(可能值得一读,尽管它并不完全相同),我认为应该根据以下条件选择链接函数:

    1. 响应分布的知识,
    2. 理论考虑,以及
    3. 对数据的经验拟合。

    在该框架内,高斯模型的规范链接将是恒等链接。在这种情况下,您拒绝了这种可能性,大概是出于理论上的原因。我怀疑您的想法是不能取负值(请注意,“不会发生”不是一回事)。如果是这样,日志是一个合理的先验选择,但它不仅仅阻止YY从变成负数,它还对曲线关系产生了特定的形状。残差与拟合值的标准图(可能覆盖了黄土拟合)将帮助您确定数据中的内在曲率是否与对数链接施加的特定曲率合理匹配。正如我所提到的,您还可以尝试满足您想要的理论标准的任何其他转换,并直接比较两者的拟合度。