GLM 在回归树的终端节点中的优势?

机器算法验证 回归 广义线性模型 大车
2022-03-20 04:13:43

因此,我正在尝试编写一种算法,该算法从数据中生长和修剪回归树,然后在树的终端节点中拟合 GLM。我一直在尝试阅读这个想法,但我似乎找不到任何一致的技术名称。我将其解读为混合回归树 (HRT)、模型树和功能树。对这些术语的搜索很少。

我错过了另一个名字吗?我在哪里可以找到有关其有效性的研究?

1个回答

就像您说的那样,这个想法之前已经被探索过(尽管名称不同),并且实际上有关于该主题的广泛文献。我与这项工作相关的名字是 Wei-Yin Loh、Probal Chaudhuri、Hongshik Ahn、Joao Gama、Antonio Ciampi 或 Achim Zeileis。您可以在本文中找到对优缺点和不同算法(稍微过时)的相当全面的描述

具有 GLM 的树具有以下 (dis-) 优势(从此处转述- 您可以通过谷歌搜索轻松找到预印本):

  • GLM 的函数形式有时对于整个数据集来说似乎过于僵化,即使该模型可能很好地适合子样本。

  • 特别是对于大型数据集或对底层过程的了解有限的数据集,建立有用的参数模型可能很困难,并且它们在预测方面的性能可能不够。

  • 树能够合并非线性关系或自行找到函数关系,因此在经典模型有偏差甚至失败的环境中可以具有更高的预测能力。

  • 由于它们的探索性特征,具有 GLM 的树可以揭示隐藏在 GLM 建模的数据中的模式,或者通过结合来自其他协变量的附加信息来进一步解释令人惊讶或违反直觉的结果。

  • 它们有助于识别先验假设模型非常适合的数据段。总体而言,该模型可能拟合不佳,但这是由于某些污染(例如合并两个单独的数据文件或在某个日期的数据收集过程中出现系统错误)。具有 GLM 的树可能会以某种方式对数据进行分区,使我们能够找到拟合不佳的段并找到拟合可能相当好的段。

  • 树状结构允许这些协变量的影响是非线性的和高度交互的,而不是假设对链接均值的影响是线性的。

  • 具有 GLM 的树可能会为先验假设的参数模型带来额外的洞察力,尤其是在底层机制过于复杂而无法被 GLM 捕获的情况下。

  • 使用 GLM 的树可以自动检测交互作用、非线性、模型错误指定、未考虑的协变量影响等。

  • 它们可以用作复杂和大型数据集中的探索工具,它具有许多优势。

  • 与全局 GLM 相比,GLM 模型树可以缓解偏差和模型错误指定的问题,并提供更好的拟合。

  • 与具有常数的树算法相比,在终端节点中指定参数模型可以增加额外的稳定性,从而减少树方法的方差。

  • 作为树和经典 GLM 类型模型的混合体,性能通常介于这两个极点之间:它们往往表现出比经典模型更高的预测能力,但低于非参数树。

  • 由于分裂过程,它们与经典模型相比增加了一些复杂性,但通常比非参数树更简洁。

  • 它们在自举实验中显示出比全局模型更高的预测方差,但远低于非参数树(甚至是修剪过的树)。

  • 在树的节点中使用 GLM 通常会导致更小的树

  • 与只有常数的树相比,在树的节点中使用 GLM 通常会导致更稳定的预测(但不如 bagging 或树的森林稳定)

  • 节点中具有 GLM 的树的 VC 维度高于仅具有常数的等效树(因为后者是前者的特例)

关于具有 GLM 的树的“有效性”(我假设您的意思是预测性能),上述两个链接中引用的大多数论文确实对此进行了一些调查。然而,据我所知,尚未将所有算法与标准树等竞争对手进行全面、广泛的比较。