数据挖掘 - 如果 GBM 参数（例如，学习率）随着训练的进行而变化，会发生什么？ - 吾爱随笔录

在神经网络中，有一个“学习率计划”的概念，它随着训练的进行而改变学习率。

这让我问了一个问题，GBM 中的不同参数作为树数的函数会有什么影响？

以学习率为例。对于使用 MART 算法的 GBM，每棵树的贡献由误差和学习率的函数加权。早期适合的树木具有更高的影响；以后适合的树木影响较小。如果学习率是 $N$ 如 $\exp(-a N)$ 在哪里 $a$ 将是学习率的衰减参数？

其他参数也可能有所不同。例如，每棵树的最大深度可能一开始就很高，然后随着训练的进行而减小。除了树参数之外，如果使用 bagging 或损失函数的参数（例如 Huber 损失参数），其他示例是子样本百分比 $\delta$ ）。