我对因变量进行了对数转换,我可以将 GLM 正态分布与 LOG 链接功能一起使用吗?

机器算法验证 正态分布 广义线性模型 数据转换 残差 直方图
2022-03-01 20:08:19

我有一个关于广义线性模型 (GLM) 的问题。我的因变量 (DV) 是连续的且不正常。所以我对它进行了日志转换(仍然不正常但改进了它)。

我想将 DV 与两个分类变量和一个连续协变量联系起来。为此,我想进行 GLM(我正在使用 SPSS),但我不确定如何决定要选择的分布和函数。

我已经进行了 Levene 的非参数检验,并且我有方差同质性,所以我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正常的,残差是正常的。因此,我已经分别打印了来自每个 GLM 的线性预测变量的标准化 Pearson 残差和预测值(GLM 正态恒等函数和正态对数函数)。我已经进行了正态性检验(直方图和 Shapiro-Wilk),并分别针对预测值绘制了残差(以检查随机性和方差)。恒等函数的残差不正常,但对数函数的残差正常。我倾向于使用对数链接函数选择正态,因为 Pearson 残差是正态分布的。

所以我的问题是:

  • 我可以在已经对数转换的 DV 上使用具有 LOG 链接功能的 GLM 正态分布吗?
  • 方差齐性检验是否足以证明使用正态分布的合理性?
  • 残差检查程序是否正确以证明选择链接函数模型是正确的?

左侧是 DV 分布图像,右侧是带有对数链接功能的 GLM 法线的残差。

左侧为 DV 分布,右侧为 GLM 正态残差

1个回答

我可以在已经对数转换的 DV 上使用具有 LOG 链接功能的 GLM 正态分布吗?

是的; 如果在该规模上满足假设

方差齐性检验是否足以证明使用正态分布的合理性?

为什么方差相等意味着正态性?

残差检查程序是否正确以证明选择链接函数模型是正确的?

您应该注意同时使用直方图和拟合优度检验来检查假设的适用性:

1)注意使用直方图评估正态性。(另见此处

简而言之,根据您选择的 binwidth 的微小变化,甚至只是 bin 边界的位置等简单的事情,就有可能获得完全不同的数据形状印象:

残差的两个直方图

这是同一数据集的两个直方图。使用几种不同的 binwidth 有助于查看印象是否对此敏感。

2) 当心使用拟合优度检验得出正态假设是合理的结论。正式的假设检验并不能真正回答正确的问题。

例如,请参阅第2项下的链接。 这里

关于方差,在一些使用类似数据集的论文中提到“因为分布具有均匀方差,所以使用了具有高斯分布的 GLM”。如果这不正确,我该如何证明或决定分配?

在正常情况下,问题不是“我的错误(或条件分布)是否正常?” - 他们不会,我们甚至不需要检查。一个更相关的问题是“目前的非正态性程度对我的推论有多大影响?”

我建议使用核密度估计或正态 QQplot(残差与正态分数图)。如果分布看起来相当正常,那么您不必担心。事实上,即使它显然是非正态的,它仍然可能不是很重要,这取决于你想要做什么(例如,正态预测区间实际上将依赖于正态性,但许多其他事情往往会在大样本量下起作用)

有趣的是,在大样本中,正态性通常变得越来越不重要(除了上面提到的 PI),但是你拒绝正态性的能力越来越强。

编辑:关于方差相等的一点是,即使在大样本量下,它确实会影响你的推论。但是您可能也不应该通过假设检验来评估这一点。无论您假设的分布如何,弄错方差假设都是一个问题。

我读到模型的比例偏差应该在 Np 左右才能很好地拟合,对吗?

当您拟合正态模型时,它具有比例参数,在这种情况下,即使您的分布不正常,您的比例偏差也将约为 Np。

在您看来,带有日志链接的正态分布是一个不错的选择

在继续不知道您正在测量什么或您正在使用推理的情况下,我仍然无法判断是否建议 GLM 的另一个分布,也无法判断正态性对您的推理有多重要。

但是,如果您的其他假设也是合理的(至少应该检查线性和方差相等性并考虑潜在的依赖来源),那么在大多数情况下,我会很乐意做一些事情,比如使用 CI 并对系数或对比进行测试- 这些残差中只有非常轻微的偏斜印象,即使它是真正的效果,也不应该对这些推断产生实质性影响。

简而言之,你应该没问题。

(虽然另一种分布和链接函数在拟合方面可能做得更好,但只有在有限的情况下它们才可能更有意义。)