节点的决策树标记问题

数据挖掘 随机森林 决策树 大车
2022-03-08 16:14:32

我们知道,决策树根据多数类投票将标签分配给节点。我很想知道这种标签方案可能存在什么问题?会不会导致数据过拟合?

1个回答

给定属性测试条件及其值,决策树确实根据多数分配标签。

关于类标签分配-

如果 DT 具有更长的深度,则可能没有足够的实例用于某个分支/测试条件/节点。那么这可能不是统计上对类标签的可靠估计。这也称为数据碎片问题

所以一个有 50 个节点的 DT,在第 10 行,因为day = Humid只剩下 1 个实例,即 -ve。所以它被指定为 -ve 但理想情况下没有足够的数据来支持这一点。

解决此问题的一种方法是不允许树的生长超出节点数量(即停止条件)的某个阈值。

这也将我们带到了过拟合,关于过拟合- 在训练和测试中有一个经典的错误与节点数图,以显示在 DT 中过拟合是如何发生的。

正如您在下图中看到的,具有更多节点数的树具有较低的训练误差,但其被测试误差较高。测试和训练误差之间的差距告诉我们,当树大小增加时,树过度拟合/捕获了噪声。

在此处输入图像描述

现在随机森林是多个决策树的集合/森林。在对示例进行分类时,我们将多数投票排除在 Trees 之外。