决策树方法对数据分析的限制是什么?

数据挖掘 机器学习 分类 随机森林 决策树
2021-09-29 09:35:38

据我所知,决策树方法对数据分析的主要限制是:

  1. 提供较少的有关预测变量和响应之间关系的信息。
  2. 偏向具有更多方差或水平的预测变量。
  3. 高度共线的预测变量可能存在问题。
  4. 对于样本量较小的响应,预测准确性可能会很差。

还有其他人吗?它们对同质性、正态性、独立性等传统统计假设是否稳健?

2个回答

简单的决策树有下面列出的一些限制。幸运的是,其中一些可以修复使用集成学习技术(想想 bagging、boosting ......)。

关于限制:

  • 树往往会在底部快速过拟合。如果您在最后一个节点中的观察结果很少,则可能会做出错误的决定。在这种情况下,请考虑减少树的级别数或使用修剪。

  • 树可能不稳定,因为数据中的微小变化可能会导致生成完全不同的树。

  • 决策树在每个节点上执行最佳分割的贪婪搜索。对于测试所有可能拆分的基于 CART 的实现来说尤其如此。对于连续变量,这表示 2^(n-1) - 1 个可能的拆分,其中 n 是当前节点中的观察数。

  • 对于分类,如果某些类占主导地位,它可以创建有偏差的树。因此,建议在拟合之前平衡数据集。

    此外,对于决策树,某些分布可能很难学习。下面的示例(XOR):

在此处输入图像描述

1)过度拟合是决策树模型最实际的困难之一。这个问题可以通过对模型参数设置约束和剪枝来解决。

2)不适合连续变量:在处理连续数值变量时,决策树在将变量分类为不同类别时会丢失信息。