TDIDT 决策树算法

数据挖掘 机器学习 分类 数据挖掘 决策树
2022-02-24 10:40:47

TDIDT、ID3、CART 和 C4.5 有什么区别?

我主要关心的是 TDIDT,它是决策树附带的第一个算法吗?

是 ID3、CART 和 C4.5 的前身还是后继者?

与其他(ID3、CART 和 C4.5?)有什么区别?

1个回答

TDIDT 代表“自上而下的决策树归纳”;我还没有找到证据表明它指的是特定的算法,而只是指贪婪的自上而下的构造方法。因此(似乎)您提到的所有其他算法都是 TDIDT 的实现。第一次迭代是由于 Hunt,1966 年的“概念学习系统”。

ID3 归功于 1979 年的 Quinlan,改进了 CLS。(有趣的事实:它最初旨在解决决定 King-rook 与 King-knight 国际象棋残局可赢性的问题。)这进一步改进到 C4.5,然后到 C5.0。此分支仅适用于分类。

CART(“分类和回归树”)由 Breiman、Friedman、Stone 和 Olshen 在 1984 年大致与 ID3 并行开发。顾名思义,这个分支允许预测连续变量。

分支之间的主要区别在于如何使用不同的度量来确定拆分。早期似乎在处理缺失数据等方面存在差异,但这些似乎大部分都包含在所有最近的迭代中。

当然,还有许多其他改进或变化。一些(历史?)树构建算法生成非二叉树,一些在特征的线性组合上进行分割,而不是一次仅一个,一些试图通过向前看来减少算法的贪婪性质,一些在每个叶子中生成回归模型常数函数,...

https://en.wikipedia.org/wiki/Decision_tree_learning#Decision_tree_types
W-Y Loh,“分类和回归树简史”(幻灯片)
讲座幻灯片(Aida Nordman?) Quora
1986 年
关于 Quora
类似 SO 问题
C5 的类似问题。 0 介绍