随着时间的推移流行的分类算法

数据挖掘 分类 理论 方法
2022-02-20 20:02:39

在 Francois Chollet (2018) 的“Python 深度学习”一书中,在第 1.2.4 节中可以找到:

从数据中学习的决策树在 2000 年代开始受到广泛的研究兴趣,到 2010 年,它们通常比核方法更受青睐。

...

特别是,随机森林算法引入了一种稳健、实用的决策树学习方法,包括构建大量专门的决策树,然后将它们的输出组合起来。随机森林适用于广泛的问题——你可以说它们几乎总是任何浅层机器学习任务的次优算法。当流行的机器学习竞赛网站 Kaggle ( http://kaggle.com ) 于 2010 年启动时,随机森林迅速成为该平台上的最爱——直到 2014 年梯度提升机器接管。

对我来说,这听起来像是作者试图描绘这种分类方法的演变:

| Method            | From | To           |
|-------------------|------|--------------|
| Kernel Methods    | ...  | 2000         |
| Decision Trees    | 2000 | 2010         |
| Random Forest     | 2010 | 2014         |
| Gradient Boosting | 2014 | Today (2019) |

Gradient Boosting 是当今最流行的库吗?

它可以普遍适用于任何情况吗?

你怎么看?

1个回答

Gradient Boosting 对于具有中等数量表格数据的问题表现良好。Kaggle 上的许多问题都是这种风格。

目前,深度学习拥有许多最先进的基准。随着数据量的增长,深度学习通常会表现得更好。深度学习在其他类型的数据(图像和文本)上表现更好。

没有一种机器学习算法在所有情况下都是最好的,通常被称为“没有免费的午餐定理”。