据我所知,决策树方法对数据分析的主要限制是:
- 提供较少的有关预测变量和响应之间关系的信息。
- 偏向具有更多方差或水平的预测变量。
- 高度共线的预测变量可能存在问题。
- 对于样本量较小的响应,预测准确性可能会很差。
还有其他人吗?它们对同质性、正态性、独立性等传统统计假设是否稳健?
据我所知,决策树方法对数据分析的主要限制是:
还有其他人吗?它们对同质性、正态性、独立性等传统统计假设是否稳健?
简单的决策树有下面列出的一些限制。幸运的是,其中一些可以修复使用集成学习技术(想想 bagging、boosting ......)。
关于限制:
树往往会在底部快速过拟合。如果您在最后一个节点中的观察结果很少,则可能会做出错误的决定。在这种情况下,请考虑减少树的级别数或使用修剪。
树可能不稳定,因为数据中的微小变化可能会导致生成完全不同的树。
决策树在每个节点上执行最佳分割的贪婪搜索。对于测试所有可能拆分的基于 CART 的实现来说尤其如此。对于连续变量,这表示 2^(n-1) - 1 个可能的拆分,其中 n 是当前节点中的观察数。
对于分类,如果某些类占主导地位,它可以创建有偏差的树。因此,建议在拟合之前平衡数据集。
此外,对于决策树,某些分布可能很难学习。下面的示例(XOR):
1)过度拟合是决策树模型最实际的困难之一。这个问题可以通过对模型参数设置约束和剪枝来解决。
2)不适合连续变量:在处理连续数值变量时,决策树在将变量分类为不同类别时会丢失信息。