决策树节点与叶子定义

数据挖掘 机器学习 决策树 gbm
2021-09-30 19:06:54

我很难理解树的“节点”和树的“叶子”之间的区别。

假设我试图决定一个人可能喜欢的咖啡的大小。根据人们的年龄,身高,体重,收入分为三类:小,中,大。

所以我有四个预测变量和 3 个可能的结果。在查看许多梯度提升算法时,有一些参数可以增加叶子的数量。

我对此的理解(如果错了,请纠正我),但我会用图片来说明。假设每个是/否拆分是 50/50

在此处输入图像描述

增加叶子的数量到让我们说 3 片叶子是否会从是/否 aka 50/50 变为 33/33/33?这让我有点困惑。谢谢你的澄清。

山姆

2个回答

叶节点是树中没有其他节点的节点。他们不会进一步拆分数据;他们只是对最终在该节点中的示例进行分类。在您的示例树图中,“大”、“中”或“小”的节点是叶节点。树中的其他节点可互换地称为分裂节点决策节点内部节点

在梯度提升算法中,会生成许多决策树。每棵树都会生长,直到满足某些停止标准。一种停止标准是树中的最大叶子数。在决策树生长的每个阶段,通过创建一个是/否问题(我们称之为二分分裂)将一个叶节点变成一个分裂节点,并创建两个新的叶节点,它们对应于分裂的每一侧。一旦树中的叶子节点总数达到限制值,树构建算法就会停止并开始构建下一棵树。

叶节点是决策树的最终节点,在此之后,决策树算法不会拆分数据。

如果未应用预剪枝技术,则默认情况下决策树会拆分数据,直到它没有得到同质的数据组,即每个叶子代表属于同一标签的数据拆分(0/1,是/否)。

因此,默认情况下,直到节点中的所有数据点都代表或属于同一类时,树才会被拆分。所有数据点具有相同标签的最终节点被视为叶节点,所有其他中间节点被视为树节点。

树节点可以进一步划分为导致叶节点形成的子节点。