在神经网络中,有一个“学习率计划”的概念,它随着训练的进行而改变学习率。
这让我问了一个问题,GBM 中的不同参数作为树数的函数会有什么影响?
以学习率为例。对于使用 MART 算法的 GBM,每棵树的贡献由误差和学习率的函数加权。早期适合的树木具有更高的影响;以后适合的树木影响较小。如果学习率是如在哪里将是学习率 的衰减参数?
其他参数也可能有所不同。例如,每棵树的最大深度可能一开始就很高,然后随着训练的进行而减小。除了树参数之外,如果使用 bagging 或损失函数的参数(例如 Huber 损失参数),其他示例是子样本百分比)。