数据挖掘 - 决策树的缺点 - 吾爱随笔录

决策树的缺点

数据挖掘决策树

2022-03-08 07:09:11

我在博客中读到决策树有这个缺点：

不适合连续变量

如果这是真的，那为什么？

4个回答

由于树的节点结构，决策树可以很好地处理分类变量。分类变量可以在节点处轻松拆分。例如，yes 或 no 或 0 或 1。连续变量就是这样，在一个范围内连续，在节点处无法轻易拆分。例如，0 到 100 之间的浮点数。

它不能用于微趋势检测，因为每个节点都会查找大于或小于阈值的值。

决策树可以处理连续变量，所以这不应该是一个缺点。他们只是通过定义阈值将连续变量分成类别来使其分类。

但是，如果您的模型仅包含连续变量，则神经网络可能是此类用例的更好解决方案。

训练数据中的连续变量 (X) 如果您查看决策树，他们会尝试在分类数据的情况下根据类别拆分数据，在连续数据的情况下根据阈值拆分数据。现在要拆分连续数据，它会随机尝试创建 BIN 并计算熵/增益等，无论您选择什么。这意味着决策树能够使用连续变量进行训练，并且它们没有缺点，只是由于 Bin 创建和在 Bin 上找到最佳分割的过程可能需要更多的时间来训练。

目标 (X) 中的连续变量 决策树适用于回归问题，但现在的目标不是找到能够提供最大信息增益的分裂，而是减少具有相同叶节点的观察之间的差异。

根据我的理解，一般而言，决策树已经过修改，可以很好地处理连续数据和分类数据

其它你可能感兴趣的问题

上一篇机器学习设计文档下一篇nlp 中的插值 - O 项的定义