在梯度增强回归树中,收缩常被应用为:
在哪里是通过将树拟合到梯度而学习的回归树。我尝试过实现这一点,发现这种收缩对于防止过度拟合确实是必要的。所需的收缩率可能因应用而异,但我发现任何大于导致过拟合。
这种收缩有理论上的理由吗?是否有更理论上合理的方法来规范 GBRT?
在梯度增强回归树中,收缩常被应用为:
这种收缩有理论上的理由吗?是否有更理论上合理的方法来规范 GBRT?
是否有任何类型的正则化参数的理论基础?通常,我认为它们是作为方便的先验引入的。
此外,有很多方法可以对梯度提升树进行正则化。
我确定我忘记了一些。这篇关于梯度提升回归树 (GBRT)的演讲做了一个很好的总结。
是的,收缩是有理论依据的. 它不仅仅是一个正则化参数。
请记住,梯度提升等效于通过使用梯度下降法(参见Friedman et al. 2000)最小化可微分损失函数(在 Adaboost 的情况下为指数损失、分类的多项偏差等)来估计加性模型的参数。
所以控制损失函数最小化的速率。较小的值导致更高的准确性,因为使用更小的步骤,优化更精确(但是,由于需要更多的步骤,因此需要更多的时间)。
和我们可以控制提升算法下降误差面(或上升似然面)的速率 。
性能最佳时越小越小,边际效用越小越好.
(两篇引文均来自Ridgeway 2007)