对数关联的伽玛 GLM 与对数关联的高斯 GLM 与对数变换的 LM

机器算法验证 r 广义线性模型 模型选择 伽马分布 链接功能
2022-01-21 21:33:27

从我的结果来看,GLM Gamma 似乎符合大多数假设,但它是否比对数变换的 LM 值得改进?我发现的大多数文献都涉及泊松或二项式 GLM。我发现文章EVALUATION OF GENERALIZED LINEAR MODEL ASSUMPTIONS USING RANDOMIZATION非常有用,但它缺乏用于做出决定的实际图。希望有经验的人能给我指出正确的方向。

我想对响应变量 T 的分布进行建模,其分布如下图所示。如您所见,这是正偏度:

有效的 XHTML.

我有两个分类因素需要考虑:METH 和 CASEPART。
请注意,这项研究主要是探索性的,本质上是在对模型进行理论化并围绕它执行 DoE 之前作为试点研究。

我在 R 中有以下模型及其诊断图:

LM.LOG <- lm(log10(T) ~ factor(METH) + factor(CASEPART), 
             data=tdat)

有效的 XHTML
有效的 XHTML

GLM.GAMMA <- glm(T ~ factor(METH) * factor(CASEPART), 
                 data=tdat, family="Gamma"(link='log'))

有效的 XHTML
有效的 XHTML

GLM.GAUS <- glm(T ~ factor(METH) * factor(CASEPART), 
data=tdat, family="gaussian"(link='log'))

有效的 XHTML
有效的 XHTML

我还通过 Shapiro-Wilks 残差检验获得了以下 P 值:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

我计算了 AIC 和 BIC 值,但如果我是正确的,由于 GLM/LM 中的不同家族,它们并不能告诉我太多。

此外,我注意到了极端值,但我不能将它们归类为异常值,因为没有明确的“特殊原因”。

1个回答

好吧,很明显,对高斯的对数线性拟合是不合适的;残差有很强的异方差性。所以让我们把它排除在外。

剩下的是对数正态与伽玛。

注意直方图T没有直接用途,因为边际分布将是变量的混合(每个变量都取决于预测变量的不同值集);即使两个模型之一是正确的,该图也可能与条件分布完全不同。

在这种情况下,这两种模型似乎都同样适用。它们都具有与均值平方成正比的方差,因此残差与拟合的分布模式相似。

与对数正态相比,低离群值更适合伽玛(高离群值反之亦然)。在给定的均值和方差下,对数正态分布更偏斜且变异系数更高。

要记住的一件事是对数正态的期望不是exp(μ); 如果您对均值感兴趣,则不能仅对对数刻度拟合求幂。实际上,如果您对均值感兴趣,伽玛可以避免对数正态的许多问题(例如,一旦您将参数不确定性纳入σ2在对数正态中,您可以根据 log-t 分布进行预测,该分布没有均值。预测区间仍然可以正常工作,但这可能是预测平均值的问题。

有关一些相关讨论,另请参见此处此处