何时使用伽马 GLM?

机器算法验证 广义线性模型 伽马分布
2022-01-18 18:12:52

伽马分布可以呈现出相当广泛的形状,并且考虑到通过其两个参数的均值和方差之间的联系,它似乎适合处理非负数据中的异方差,以对数转换的 OLS 可以没有 WLS 或某种异方差一致的 VCV 估计器就不行。

我会更多地将它用于常规的非负数据建模,但我不认识其他人使用它,我没有在正式的课堂环境中学习过它,我阅读的文献也从未使用过它。每当我在 Google 上搜索“gamma GLM 的实际用途”之类的内容时,我都会提出建议,将其用于泊松事件之间的等待时间。好的。但这似乎是限制性的,不能是它的唯一用途。

天真地,考虑到伽玛的灵活性,伽玛 GLM 似乎是一种相对轻量级的非负数据建模方法。当然,您需要像任何模型一样检查 QQ 图和残差图。但是我有什么严重的缺点吗?除了与“只运行 OLS”的人交流之外?

4个回答

伽玛具有对数正态共享的属性;也就是说,当形状参数保持不变而比例参数变化时(通常在使用任一模型时都会这样做),方差与均方成正比(恒定的变异系数)。

与此类似的情况经常发生在财务数据中,或者实际上,在许多其他类型的数据中。

因此,它通常适用于连续的、正的、右偏斜的数据,并且方差在对数尺度上几乎是恒定的,尽管还有许多其他众所周知的(并且通常相当容易获得)选择特性。

此外,将日志链接与伽马 GLM 拟合是很常见的(使用自然链接相对较少)。与将正态线性模型拟合到数据的对数稍有不同的是,在对数尺度上,伽玛在不同程度上偏斜,而法线(对数正态的对数)是对称的。这使得它(伽玛)在各种情况下都很有用。

我已经在de Jong & HellerFrees以及大量论文中看到了伽马 GLM 的实际用途(带有真实数据示例);我还看到了其他领域的应用。哦,如果我没记错的话,Venables 和 Ripley 的 MASS将它用于学校旷课(quine 数据;编辑:原来它实际上是在MASS 的 Statistics Complements 中,见 p11,pdf 的第 14 页,它有一个日志链接,但是DV有一个小的变化)。呃,McCullagh 和 Nelder 做了一个血液凝固的例子,尽管它可能是自然的联系。

然后是Faraway 的书,其中他做了一个汽车保险示例和一个半导体制造数据示例。

选择这两个选项中的任何一个都有一些优点和一些缺点。由于现在两者都很容易适应;这通常是选择最合适的问题。

这远非唯一的选择。例如,还有逆高斯 GLM,它比伽马或对数正态更偏斜/更重尾(甚至更异方差)。

至于缺点,预测区间更难。一些诊断显示更难解释。在线性预测器的尺度(通常是对数尺度)上计算期望值比等效对数正态模型更难。假设检验和区间通常是渐近的。这些通常是相对较小的问题。

它比对数链接对数正态回归(取对数并拟合普通线性回归模型)具有一些优势;一是平均预测很容易。

这是个好问题。事实上,为什么人们不更多地使用广义线性模型(GLM)也是一个很好的问题。

警告说明:有些人将 GLM 用于一般线性模型,而不是这里的想法。

  • 这确实取决于你在哪里看。例如,伽马分布在一些环境科学中已经流行了几十年,因此使用预测变量进行建模也是一种自然的扩展。在水文和地貌学中有很多例子,举一些我迷路的领域。

  • 除了什么时候效果最好的空洞答案之外,很难确定何时使用它。鉴于倾斜的正数据,我经常会发现自己尝试伽玛和对数正态模型(在 GLM 上下文日志链接中,正态或高斯族)并选择哪个效果更好。

  • 直到最近,伽玛建模仍然非常困难,当然与记录日志和应用线性回归相比,无需自己编写大量代码。即使是现在,我猜想在所有主要的统计软件环境中这也不是那么容易。

  • 在解释什么被使用和什么没有被使用时,尽管有优点和缺点,我认为你总是归结为你所确定的因素:教了什么,人们阅读的文献中的内容,人们在工作和会议。所以,你需要一种业余的科学​​社会学来解释。大多数人似乎在自己的领域内走直线和狭窄的道路。松散地说,任何领域关于建模技术的内部文献越多,该领域的人似乎就越不倾向于尝试不同的东西。

伽玛回归在 GLM 中,因此您可以获得许多用于诊断目的的有用量,例如偏差残差、杠杆作用、库克距离等。它们可能不如对数转换数据的相应数量好。

与对数正态相比,伽马回归避免的一件事是转换偏差。Jensen 不等式意味着对数正态回归的预测将存在系统偏差,因为它是对转换后的数据进行建模,而不是对转换后的预期值进行建模。

此外,伽马回归(或其他非负数据模型)可以处理比对数正态更广泛的数据数组,因为它可以在 0 处具有模式,例如在伽马中的指数分布家庭,这对于对数正态是不可能的。

我已经阅读了使用泊松似然作为准似然更稳定的建议。它们是彼此的共轭物。准泊松还具有能够处理精确的 0 值的实质性好处,这对 gamma 尤其是对数正态都有影响。

在我看来,它假设误差位于一系列伽马分布上,具有相同的形状,并且尺度根据相关公式而变化。

但是很难进行模型诊断。请注意,简单的 QQ 图在这里不适合,因为它是大致相同的分布,而我们的是具有不同方差的分布族。

天真地,残差图可用于查看它们具有不同的尺度但形状相同,通常带有长尾。

以我的经验,伽玛 GLM 可能会尝试解决一些长尾分布问题,并且广泛应用于保险和环境等领域。但假设很难检验,而且模型通常表现不佳,所以不同的论文主张使用具有相同问题的其他族分布,例如逆高斯分布等。在实践中,这种选择似乎取决于专家判断和行业经验。这限制了伽马 GLM 的使用。