何时使用 GAM 与 GLM

机器算法验证 回归 广义线性模型 广义加法模型
2022-01-23 19:33:20

我意识到这可能是一个潜在的广泛问题,但我想知道是否有假设表明在 GLM(广义线性模型)上使用 GAM(广义加法模型)?

最近有人告诉我,只有当我假设数据结构是“可加的”时才应该使用 GAM,即我希望 x 的加法可以预测 y。另一个人指出,GAM 与 GLM 进行不同类型的回归分析,并且当可以假设线性时,首选 GLM。

过去我一直在使用 GAM 来获取生态数据,例如:

  • 连续时间序列
  • 当数据没有线性形状时
  • 我有多个 x 来预测我认为有一些非线性相互作用的 y,我可以使用“曲面图”和统计测试来可视化这些相互作用

我显然不太了解 GAM 与 GLM 的不同之处。我相信这是一个有效的统计测试,(而且我看到 GAM 的使用有所增加,至少在生态期刊中),但我需要更好地了解它的使用何时超过其他回归分析。

3个回答

主要区别恕我直言,虽然“经典”形式的线性或广义线性模型假设因变量和协变量之间的关系具有固定的线性或其他参数形式,但 GAM 并不先验地假设这种形式的任何特定形式关系,并可用于揭示和估计协变量对因变量的非线性影响。协变量的加权和,但在 GAM 中,该术语被替换为平滑函数的总和,例如,其中ni=1nβixii=1nj=1qβisj(xi)s1(),,sq()是平滑的基函数(例如三次样条),是基维数。通过组合基函数,GAM 可以表示大量的函数关系(这样做它们依赖于假设真实的关系可能是平滑的,而不是摆动的)。它们本质上是 GLM 的扩展,但是它们的设计方式使它们对于揭示数值协变量的非线性效应特别有用,并且以“自动”方式这样做(来自 Hastie 和 Tibshirani 的原始文章,它们具有“完全自动化的优势,即统计学家不需要“侦探”工作')。q

我要强调的是,GAM 比 GLM 灵活得多,因此在使用时需要更加小心。权力越大,责任越大。

你提到了它们在生态学中的用途,我也注意到了。我在哥斯达黎加,在热带雨林中看到了某种研究,一些研究生将一些数据放入 GAM 并接受其疯狂复杂的平滑器,因为软件是这样说的。这是非常令人沮丧的,除了幽默/令人钦佩的事实,他们严格地包含了一个脚注,记录了他们使用 GAM 和由此产生的高阶平滑器的事实。

您不必确切了解 GAM 是如何使用它们的,但您确实需要考虑您的数据、手头的问题、软件对参数的自动选择,例如更平滑的订单、您的选择(您指定的平滑器、交互、如果平滑器是合理的等),以及结果的合理性。

做很多图,看看你的平滑曲线。他们会在数据很少的领域发疯吗?当您指定低阶平滑器或完全删除平滑时会发生什么?该变量的 7 度平滑度是否更现实,尽管保证它正在交叉验证其选择,它是否过度拟合?你有足够的数据吗?它是高质量的还是嘈杂的?

我喜欢 GAMS,并且认为它们在数据探索方面的价值被低估了。它们只是超级灵活,如果您允许自己不严谨地进行科学,它们将带您比 GLM 等更简单的模型更深入统计领域。

我没有名誉来简单地添加评论。我完全同意韦恩的评论:权力越大,责任越大GAM 可以非常灵活,我们经常得到/看到疯狂复杂的平滑器然后,我强烈建议研究人员限制平滑函数的自由度(结数)并测试不同的模型结构(交互/无交互等)。

GAM 可以考虑介于模型驱动方法(尽管边界模糊,我会在该组中包括 GLM)和数据驱动方法(例如,假设完全交互的非线性变量影响的人工神经网络或随机森林)之间。因此,我并不完全同意 Hastie 和 Tibshirani 的观点,因为 GAM 仍然需要一些侦探工作(希望没有人因为这样说而杀了我)。

从生态的角度来看,我建议使用R骗局来避免这些不可靠的变量疯狂复杂的平滑器它是由 Natalya Pya 和 Simon Wood 开发的,它允许将平滑曲线约束到所需的形状(例如单峰或单调),即使是双向交互也是如此。我认为 GLM 在约束了平滑函数的形状后成为了一个次要的选择,但这只是我个人的看法。

Pya, N., Wood, SN, 2015。形状约束加法模型。统计。计算。25 (3), 543–559。10.1007/s11222-013-9448-7