数据挖掘 - Adaboost 与梯度提升 - 吾爱随笔录 - 问答

Adaboost 与梯度提升

数据挖掘算法相似集成建模助推

2021-09-27 23:02:42

AdaBoost 与 Gradient Boosting 算法有何不同，因为它们都使用了 Boosting 技术？

从理论的角度来看，我无法弄清楚这两种算法之间的实际区别。

1个回答

AdaBoost 和 Gradient Boosting 都以顺序方式构建弱学习器。最初，AdaBoost 的设计方式是在每一步都调整样本分布，以便对错误分类的样本赋予更多的权重，而对正确分类的样本赋予更少的权重。最终的预测是所有弱学习者的加权平均值，其中更多的权重放在更强的学习者身上。

后来发现，AdaBoost 也可以用具有特定损失函数（指数损失）的加法模型的更一般框架来表示。参见(Hastie) ESL中的第 10 章。

加法建模试图解决给定损失函数的以下问题 $L$ ：

$\min_{\alpha_{n=1:N},\beta_{n=1:N}} L\left(y, \sum_{n=1}^N \alpha_n f(x,\beta_n) \right)$

其中可能是决策树桩。由于损失函数内部的总和使生活变得困难，表达式可以以线性方式近似，有效地允许将总和移动到损失函数前面，一次迭代地最小化一个子问题： $f$

$\min_{\alpha_n,\beta_n} L\left(y, f_{n-1}((x) + \alpha_n f_n(x,\beta_n) \right)$

对于任意损失函数，这仍然是一个棘手的问题，因此我们可以通过线搜索应用最速下降来进一步逼近这个问题，即我们通过向负梯度方向迈出一步来 $f_n$

为了避免对梯度的过度拟合，梯度被一个新的弱学习器逼近。这为您提供了梯度提升算法：

从常数模型 $f_0$
将弱学习的负梯度 $h_n$ $f_{n-1}$
采取一步使最小化损失 $\gamma$ $f_n= f_{n-1} + \gamma h_n$ $L\left(y, f_n(x) \right)$

因此，主要区别在于 Gradient Boosting 是一种通用算法，用于寻找加法建模问题的近似解，而 AdaBoost 可以被视为具有特定损失函数的特殊情况。因此，梯度提升更加灵活。

另一方面，AdaBoost 可以从更直观的角度进行解释，并且可以在不参考梯度的情况下通过基于先前学习者的分类重新加权训练样本来实现。

另请参阅此问题以获取更多参考资料（引用）：

在梯度提升中，（现有弱学习器的）“缺点”由梯度识别。

在 Adaboost 中，“缺点”由高权重数据点识别。

其它你可能感兴趣的问题

上一篇如何使用 R 预测 xgboost 中的概率？下一篇alpha 和 beta 超参数对潜在 Dirichlet 分配有何贡献？