机器算法验证 - Boosted Regression Trees 中使用的收缩是否有理论依据？ - 吾爱随笔录

机器算法验证机器学习大车助推正则化

2022-04-03 17:55:49

在梯度增强回归树中，收缩 $\nu$ 常被应用为：

f_{t} (x) \leftarrow f_{t - 1} (x) + ν h (x)

$f_t(x) \leftarrow f_{t-1}(x) + \nu h(x)$ 在哪里

h

$h$ 是通过将树拟合到梯度而学习的回归树。我尝试过实现这一点，发现这种收缩对于防止过度拟合确实是必要的。所需的收缩率可能因应用而异，但我发现任何大于

ν = 0.01

$\nu=0.01$ 导致过拟合。

这种收缩有理论上的理由吗？是否有更理论上合理的方法来规范 GBRT？

2个回答

是否有任何类型的正则化参数的理论基础？通常，我认为它们是作为方便的先验引入的。

此外 $\nu$ ，有很多方法可以对梯度提升树进行正则化。

我确定我忘记了一些。这篇关于梯度提升回归树 (GBRT)的演讲做了一个很好的总结。

是的，收缩是有理论依据的 $\nu$ . 它不仅仅是一个正则化参数。

请记住，梯度提升等效于通过使用梯度下降法（参见Friedman et al. 2000）最小化可微分损失函数（在 Adaboost 的情况下为指数损失、分类的多项偏差等）来估计加性模型的参数。

所以 $\nu$ 控制损失函数最小化的速率。较小的值 $\nu$ 导致更高的准确性，因为使用更小的步骤，优化更精确（但是，由于需要更多的步骤，因此需要更多的时间）。

和 $\nu$ 我们可以控制提升算法下降误差面（或上升似然面）的速率。

性能最佳时 $\nu$ 越小越小，边际效用越小越好 $\nu$ .

（两篇引文均来自Ridgeway 2007）

其它你可能感兴趣的问题