使用 GAM 回归分析非线性数据,但审稿人建议改为拟合指数或对数曲线。使用哪个?

机器算法验证 非线性回归 广义加法模型 生态
2022-03-26 22:56:12

我正在尝试发表我的硕士论文,该论文着眼于大象对植被的影响,重点是人工水坑的影响。我已经提交了初步意见,现在正在进行重大修订,这涉及对我的统计方法的一些质疑。

我观察到的一些大象撞击测量显示与水的距离呈非线性关系,这导致我使用 GAM。然而,一位评论家表示,他们认为这在统计上过于矫枉过正,只不过是“拟合证明距离很重要的复杂非线性函数”而已。他们建议我应该通过拟合其他人可以使用的简单函数(例如指数衰减曲线)来描述大象撞击和到水的距离之间的非线性关系。我认为要提出的观点是,这些更简单的函数可以让我对大象​​的影响说一些更普遍的东西(例如,它们类似于对数曲线),而 GAM 仅用于描述我在特定研究区域中发现的影响和因此,它的一般用处不大。

我仍然是统计学的新手,所以我会很感激一些关于哪种方法似乎更明智的想法。我在下面的数据中包含了一些示例。

上图显示了一种植被类型在距水的不同距离处的冠层体积/公顷(圆圈代表单个采样点)。该线显示了 GAM 回归的预测关系。这种关系似乎类似于对数曲线,因此审阅者可能会建议我在这种情况下拟合它。

一种植被类型在距水的不同距离处的冠层体积/公顷(圆圈代表单个采样点)

离水不同距离的第二种植被类型的冠层体积/公顷(圆圈代表单个样地)

第二张图显示了与到水的距离相关的树冠体积/公顷,但在第二种植被类型中。这种植被类型受大象的影响更大。再次,图表上的线来自 GAM 预测,但这可能是我可以寻找拟合指数曲线的地方?

对于我使用 GAM 的优点与审阅者建议使用更简单的功能的任何想法,我将不胜感激。顺便说一句,我还没有真正探索将对数或指数曲线拟合到 R 中的数据,所以我也非常感谢这方面的任何指针。

2个回答

除了 Demetri 的回答(+1):

  1. GAM 的使用在生态学领域已经很成熟,所以我会添加一些书籍/有影响力的文章。表明您不是在重新发明轮子,而是与现代建模方法并驾齐驱。
  2. 您没有描述您的样本量,但您可能想尝试验证模式以表明通过使用 GAM,您可以获得更好的拟合优度。如果像 AIC/BIC 之类的东西对特定模型表现出明显的偏好,这可以平息一些(不太复杂的)批评......
  3. 我会强调 GAM 拟合程序如何看待收缩。有人在他/她的脑海中将 GAM 过度简化为“各种多项式基础”是合理的,因此容易过度拟合。
  4. 考虑一下他们的观点:是否有任何既定的研究表明已经存在对数或指数衰减曲线?审阅者可能会满意您承认它们是一种可能性。也许你可以对之前的工作进行批判性评估,并展示你的工作是如何向前迈进的。
  5. 正如 Dimitri 所提到的,在没有先验知识的情况下指定函数形式会导致强烈的偏见。您可以礼貌地加倍强调您使用的是非参数方法。甚至可以尝试不同的基函数(例如三次回归样条和薄板样条)并显示结果(希望)非常相似,因此不依赖于基函数的选择。

需要明确的是:在我看来,在这里使用 GAM 是正确的方法对“为什么不是 X 功能形式”的批评很弱。如果先前的研究为特定的建模假设提出了强有力的证据,那么这种批评可能是有道理的,但即便如此,它也不是一个特别有力的立场。也就是说,试着看看它们来自哪里,批评可以帮助加强你的手稿和/或减轻未来读者的担忧。

GAM 在某种程度上是“统计过度杀伤力”,而更简单的功能“更普遍”是一个有争议的主张。先验地,如果您不知道输入和输出之间的函数关系,GAM 是一种明智的方法,它将指数和对数形状作为特例包含在内。拟合模型并事后决定“嘿,这看起来像另一个函数,我将改为拟合它”无论如何都不是一个适当的推理过程。此外,第一个情节显然是非单调的,所以我不明白为什么会建议使用日志。

假设您适当地拟合模型(看起来这些是计数或比率数据,例如每单位的某些东西意味着您应该使用某种偏移量)我可能会礼貌地回应评论者说 GAM 会更普遍,因为它们可以自由估计与将函数形式指定为指数或对数相比的效果。指定函数形式是比使用惩罚基函数估计函数形式更高的偏差模型。然而,这意味着 GAM 的可变性更大,这可能是也可能不是问题。您至少可以通过自举来诚实面对不确定性。