Boosted Regression Trees 中使用的收缩是否有理论依据?

机器算法验证 机器学习 大车 助推 正则化
2022-04-03 17:55:49

在梯度增强回归树中,收缩ν常被应用为:

ft(x)ft1(x)+νh(x)
在哪里h是通过将树拟合到梯度而学习的回归树。我尝试过实现这一点,发现这种收缩对于防止过度拟合确实是必要的。所需的收缩率可能因应用而异,但我发现任何大于ν=0.01导致过拟合。

这种收缩有理论上的理由吗?是否有更理论上合理的方法来规范 GBRT?

2个回答

是否有任何类型的正则化参数的理论基础?通常,我认为它们是作为方便的先验引入的。

此外ν,有很多方法可以对梯度提升树进行正则化。

  1. 树的深度,
  2. 分裂树的最小样本量,
  3. 树叶的最小样本量,
  4. 树的数量,
  5. 为不同的树随机选择小的特征子集。

我确定我忘记了一些。这篇关于梯度提升回归树 (GBRT)的演讲做了一个很好的总结。

是的,收缩是有理论依据的ν. 它不仅仅是一个正则化参数。

请记住,梯度提升等效于通过使用梯度下降法(参见Friedman et al. 2000最小化可微分损失函数(在 Adaboost 的情况下为指数损失、分类的多项偏差等)来估计加性模型的参数。

所以ν控制损失函数最小化的速率。较小的值ν导致更高的准确性,因为使用更小的步骤,优化更精确(但是,由于需要更多的步骤,因此需要更多的时间)。

ν我们可以控制提升算法下降误差面(或上升似然面)的速率 。

性能最佳时ν越小越小,边际效用越小越好ν.

(两篇引文均来自Ridgeway 2007