似乎普遍承认决策树的预测准确度较低。是否有简明解释为什么它们的准确性低?
我读了这么多,我已经接受它是真实的,但我意识到我对它为什么是真的没有任何直觉。
例如,以下是统计学习要素(第 352 页)的摘录:
树有一个方面阻止它们成为预测学习的理想工具,即不准确性。它们很少能提供与手头数据所能达到的最佳预测精度相媲美的预测精度。
或者在维基百科上,在决策树的缺点标题下:“它们通常相对不准确。许多其他预测器在类似数据下表现更好。”
似乎普遍承认决策树的预测准确度较低。是否有简明解释为什么它们的准确性低?
我读了这么多,我已经接受它是真实的,但我意识到我对它为什么是真的没有任何直觉。
例如,以下是统计学习要素(第 352 页)的摘录:
树有一个方面阻止它们成为预测学习的理想工具,即不准确性。它们很少能提供与手头数据所能达到的最佳预测精度相媲美的预测精度。
或者在维基百科上,在决策树的缺点标题下:“它们通常相对不准确。许多其他预测器在类似数据下表现更好。”
一般来说,这不是真的。与其他算法相比,决策树倾向于过拟合,而其他算法提供的准确性太低。但是,如果您以正确的方式使用决策树,即以正确的格式准备数据,使用特征选择并执行k 折交叉验证,一切都应该没问题。
我敢肯定你读错了。与其他算法相比,DT 没有理由成为更差的算法。
你的问题是对的。首先是一个常见的误解,决策树是确定性的并且非常贪婪。随机森林不是决策树,它是一个决策树的集合,其选择方式是为了避免决策树的潜在陷阱。
如果您继续阅读您的两个参考文献。
在维基百科中
它们通常相对不准确。许多其他预测器在使用类似数据时表现更好。这可以通过用决策树的随机森林替换单个决策树来解决......
因为它们是贪婪的和确定性的,如果你多添加一行或取出一行,结果可能会有所不同,而且它们往往会过度拟合。这就是我对这句话的低准确率的理解。
在统计学习的要素
树有一个方面阻止它们成为预测学习的理想工具,即不准确性。它们很少能提供与手头数据所能达到的最佳水平相媲美的预测准确性。如第 10.1 节所示,提升决策树通常会显着提高其准确性。一种
因为他们是贪婪的和确定性的,他们通常不会给出最好的结果。这就是为什么随机森林和梯度提升出现了,它们非常好。它们取代了决策树的这个陷阱。
也看看没有免费午餐定理。
简而言之,您的问题是正确的,并且该问题在历史上已经通过随机森林和梯度提升得到了解决。