协调提升回归树 (BRT)、广义提升模型 (GBM) 和梯度提升机 (GBM)

机器算法验证 机器学习 助推
2022-03-26 02:25:40

问题:

  1. 增强回归树 (BRT) 和广义增强模型 (GBM) 之间有什么区别?它们可以互换使用吗?一种是另一种的特定形式吗?
  2. 为什么 Ridgeway 使用“广义提升回归模型”(GBM)这个短语来描述弗里德曼之前提出的“梯度提升机”(GBM)?这两个首字母缩写词相同,描述相同的事物,但源自不同的短语。

背景:

我无法确定 BRT 和 GBM 这两个术语有何不同。据我了解,这两个术语都是描述分类和回归树的术语,它们通过某种增强(例如装袋、引导、交叉验证)结合了随机性。此外,据我所知,GBM 一词最初是由 Friedman (2001) 在他的论文“贪婪函数逼近:梯度提升机”中创造的。Ridgeway 随后实施了弗里德曼在 2006 年在他的“广义提升回归模型”(GBM) 包中描述的过程。在我的领域(生态学) Elith 等人。(2008) 是第一个展示 Ridgeway 的gbm物种分布模型包的人。然而,Elith 等人的作者。使用术语“增强回归树”(BRT)来描述弗里德曼和里奇韦

我很困惑这些术语是否可以互换使用?一位作者会使用相同的首字母缩写词(来自不同的短语)来描述前一位作者提出的相同理论,这有点令人困惑。同样令人困惑的是,第三作者在用生态术语描述这一理论时使用了一个完全不同的术语。

我能想到的最好的办法是 BRT 是一种特定形式的 GBM,其中分布是二项式的,但我不确定这一点。

伊利斯等人。像这样定义提升回归树……“提升回归树结合了两种算法的优势:回归树(通过递归二元拆分将响应与其预测变量相关联的模型)和提升(一种组合许多简单模型以提高预测性能的自适应方法). 最终的 BRT 模型可以理解为一个加性回归模型,其中各个项是简单的树,以向前的、逐步的方式拟合”(Elith et al. 2008)。

1个回答

正如@aginensky 在评论线程中提到的那样,不可能进入作者的脑海,但 BRT 很可能只是对gbm建模过程的更清晰描述,请原谅我陈述了明显的、增强的分类和回归树。既然你问过提升、梯度和回归树,这里是我对这些术语的简单英语解释。仅供参考,CV 不是一种提升方法,而是一种通过重复采样帮助识别最佳模型参数的方法。有关该过程的一些出色解释,请参见此处

Boosting是一种集成方法集成方法是指一组方法,通过这些方法通过聚合来自多个单独模型的预测来做出最终预测。Boosting、Bagging 和 Stacking 是一些广泛实施的集成方法。堆叠涉及单独拟合许多不同的模型(您自己选择的任何结构),然后将它们组合成一个线性模型。这是通过根据因变量拟合各个模型的预测来完成的。LOOCV SSE 通常用于确定回归系数,每个模型都被视为基函数(在我看来,这与 GAM 非常非常相似)。同样,装袋涉及将许多结构相似的模型拟合到自举样本。冒着再次说明显而易见的风险,堆叠和装袋是并行集成方法。

然而,Boosting是一种顺序方法。Friedman 和 Ridgeway 都在他们的论文中描述了算法过程,所以我不会在这里插入它,但是简单的英语(并且有些简化)版本是你一个接一个地拟合一个模型,每个后续模型都试图最小化由前一个模型的误差加权的残差(收缩参数是分配给上一次迭代中每个预测的残差误差的权重,你能负担得起的越小越好)。在抽象意义上,您可以将提升视为一个非常类似于人类的学习过程,我们将过去的经验应用于我们必须执行的任务的新迭代。

现在,整个事情的梯度部分来自用于确定用于预测的最佳模型数量(在文档中称为迭代gbm)以避免过度拟合的方法。 GBM 训练(黑色)和 CV 误差(绿色)损失函数

正如您从上图中所看到的(这是一个分类应用程序,但回归也是如此),CV 误差一开始会急剧下降,因为算法会选择那些在变平之前会导致 CV 误差最大下降的模型当整体开始过度拟合时,再次向上爬。最佳迭代次数是对应于CV误差函数的拐点(函数梯度等于0)的迭代次数,用蓝色虚线方便地表示。

Ridgeway 的gbm实现使用分类和回归树,虽然我不能声称能读懂他的想法,但我可以想象,可以拟合树的速度和易用性(更不用说它们对数据恶作剧的鲁棒性)对他选择的建模技术。话虽如此,虽然我可能是错的,但我无法想象一个严格的理论原因为什么几乎任何其他建模技术都无法实现。再说一次,我不能声称知道里奇韦的想法,但我想象的一般化的部分gbm的名字是指众多潜在的应用。该软件包可用于执行回归(线性、泊松和分位数)、二项式(使用许多不同的损失函数)和多项式分类,以及生存分析(或至少风险函数计算,如果 coxph 分布有任何指示)。

Elith 的论文似乎有点熟悉(我想我去年夏天在研究 gbm 友好的可视化方法时遇到了它),如果记忆正确,它的特色是gbm库的扩展,专注于回归的自动模型调整(如高斯分布,而不是二项式)应用程序和改进的绘图生成。我想 RBT 命名法有助于阐明建模技术的性质,而 GBM 更通用。

希望这有助于澄清一些事情。