决策树的缺点

数据挖掘 决策树
2022-03-08 07:09:11

我在博客中读到决策树有这个缺点:

不适合连续变量

如果这是真的,那为什么?

4个回答

由于树的节点结构,决策树可以很好地处理分类变量。分类变量可以在节点处轻松拆分。例如,yes 或 no 或 0 或 1。连续变量就是这样,在一个范围内连续,在节点处无法轻易拆分。例如,0 到 100 之间的浮点数。

它不能用于微趋势检测,因为每个节点都会查找大于或小于阈值的值。

决策树可以处理连续变量,所以这不应该是一个缺点。他们只是通过定义阈值将连续变量分成类别来使其分类。

但是,如果您的模型仅包含连续变量,则神经网络可能是此类用例的更好解决方案。

训练数据中的连续变量 (X) 如果您查看决策树,他们会尝试在分类数据的情况下根据类别拆分数据,在连续数据的情况下根据阈值拆分数据。现在要拆分连续数据,它会随机尝试创建 BIN 并计算熵/增益等,无论您选择什么。这意味着决策树能够使用连续变量进行训练,并且它们没有缺点,只是由于 Bin 创建和在 Bin 上找到最佳分割的过程可能需要更多的时间来训练。

目标 (X) 中的连续变量 决策树适用于回归问题,但现在的目标不是找到能够提供最大信息增益的分裂,而是减少具有相同叶节点的观察之间的差异。

根据我的理解,一般而言,决策树已经过修改,可以很好地处理连续数据和分类数据