数据挖掘 - 这个算法属于哪一类？ - 吾爱随笔录

这个算法属于哪一类？

数据挖掘机器学习算法助推

2022-02-11 00:49:34

我遇到了Catboost包。在 Sklearn 的类别中的类中，Catboost 似乎属于 Ensemble 方法。那么 Catboost 相对于 AdaBoost、Bagging 等有什么优势呢？

1个回答

Wikipedia中定义的集成方法：

在统计和机器学习中，集成方法使用多种学习算法来获得比单独的任何组成学习算法更好的预测性能。

您提到的所有这些方法都是基于树的集成模型：

Bagging (Breiman, 1996)：将许多大树拟合到训练数据的引导重采样版本，并通过多数投票进行分类。
随机森林 (Breiman 1999)：更高级的 bagging 版本（仅随机选择特征的一个子集，不像 bagging 考虑所有特征来分割节点）。
Boosting (Freund & Shapire, 1996)：将许多大树或小树拟合到训练数据的重新加权版本。按加权多数票分类。有一篇很好的文章解释了梯度提升树。

总的来说（就预测能力而言，boosting 是最好的）：

提升 > 随机森林 > Bagging > 单树

您可能想知道AdaBoost适合哪里？

自适应提升（或简称 AdaBoost，是第一个真正成功的提升算法）致力于改进基础学习器，尤其是。它在预测上失败了。请注意，基础学习器可以是任何机器学习算法，在这些算法上应用提升以获得强学习器。当使用决策树桩作为基础学习器时，AdaBoost 可与上述提升树相媲美。您可能会再次问，它们有什么区别，见下文（摘自本书）：

现代助推树

由于梯度提升树的成功，存在多种提升算法，即：Gradient Boosting、XGBoost 和 Catboost。它们在概念上非常相似，但它们在采样方法、正则化、处理分类特征、性能等方面有所不同。如果有兴趣了解更多信息，强烈建议查看这篇文章。

个人注意：大约 1.5 年前，我是 XGBoost 的粉丝（出于多种原因），直到我尝试了 Catboost。现在我真的很喜欢 Catboost。首先，它可以轻松处理数字和分类特征的混合，甚至无需对分类特征进行编码。并且默认的超参数提供了与 XGBoost 中微调的超参数相当的结果，从而减少了麻烦。目前 Catboost 社区比我们说的 XGboost 还小，有点让它不那么吸引人，但它正在增长。最后一点：我不隶属于任何这些方法/实现。

希望，现在好多了！;-)

其它你可能感兴趣的问题

上一篇神经网络的无监督学习中的训练/测试拆分是否必要？下一篇关于加速代码的想法