我们知道,决策树根据多数类投票将标签分配给节点。我很想知道这种标签方案可能存在什么问题?会不会导致数据过拟合?
节点的决策树标记问题
数据挖掘
随机森林
决策树
大车
2022-03-08 16:14:32
1个回答
给定属性测试条件及其值,决策树确实根据多数分配标签。
关于类标签分配-
如果 DT 具有更长的深度,则可能没有足够的实例用于某个分支/测试条件/节点。那么这可能不是统计上对类标签的可靠估计。这也称为数据碎片问题。
所以一个有 50 个节点的 DT,在第 10 行,因为day = Humid只剩下 1 个实例,即 -ve。所以它被指定为 -ve 但理想情况下没有足够的数据来支持这一点。
解决此问题的一种方法是不允许树的生长超出节点数量(即停止条件)的某个阈值。
这也将我们带到了过拟合,关于过拟合- 在训练和测试中有一个经典的错误与节点数图,以显示在 DT 中过拟合是如何发生的。
正如您在下图中看到的,具有更多节点数的树具有较低的训练误差,但其被测试误差较高。测试和训练误差之间的差距告诉我们,当树大小增加时,树过度拟合/捕获了噪声。
现在随机森林是多个决策树的集合/森林。在对示例进行分类时,我们将多数投票排除在 Trees 之外。
其它你可能感兴趣的问题
