为什么 GBM 中的每棵连续树都适合损失函数的负梯度?

数据挖掘 机器学习 优化 梯度下降 gbm 损失函数
2022-03-04 10:33:16

Elements Of Statistical Learning 第 2 版的第 359 页如下所述。

在此处输入图像描述

有人可以用外行的方式解释直觉并简化它吗?

问题

  1. 将 GBM 中的每一棵连续树拟合到损失函数的负梯度上的原因/直觉和数学是什么?
  2. 是否可以使 GBM 在未见过的测试数据集上更加泛化?如果是这样,负梯度拟合如何实现对测试数据的泛化?
1个回答

使用负梯度是因为损失函数被最小化。“向下”移动正在减少预期误差。

文字试图解释boosting的逻辑。不是一次在所有训练数据上拟合模型,而是一次只训练模型的一个子样本。然后,模型可以从后续训练数据块上的错误中学习。