数据挖掘 - 节点的决策树标记问题 - 吾爱随笔录

数据挖掘随机森林决策树大车

2022-03-08 16:14:32

我们知道，决策树根据多数类投票将标签分配给节点。我很想知道这种标签方案可能存在什么问题？会不会导致数据过拟合？

1个回答

给定属性测试条件及其值，决策树确实根据多数分配标签。

关于类标签分配-

如果 DT 具有更长的深度，则可能没有足够的实例用于某个分支/测试条件/节点。那么这可能不是统计上对类标签的可靠估计。这也称为数据碎片问题。

所以一个有 50 个节点的 DT，在第 10 行，因为day = Humid只剩下 1 个实例，即 -ve。所以它被指定为 -ve 但理想情况下没有足够的数据来支持这一点。

解决此问题的一种方法是不允许树的生长超出节点数量（即停止条件）的某个阈值。

这也将我们带到了过拟合，关于过拟合- 在训练和测试中有一个经典的错误与节点数图，以显示在 DT 中过拟合是如何发生的。

正如您在下图中看到的，具有更多节点数的树具有较低的训练误差，但其被测试误差较高。测试和训练误差之间的差距告诉我们，当树大小增加时，树过度拟合/捕获了噪声。

现在随机森林是多个决策树的集合/森林。在对示例进行分类时，我们将多数投票排除在 Trees 之外。

其它你可能感兴趣的问题