基尼指数作为叶节点的标记策略

数据挖掘 机器学习 决策树
2022-03-09 16:29:12

我们可以使用 gini 索引将类分配给叶节点吗?如果是怎么办?据我了解,基尼指数只能用作分割指标。

1个回答

简短的回答:没有

长答案:

“将类分配给叶节点”是什么意思?这个问题本身很奇怪。基尼指数作为决策树构建过程中的分裂标准,叶子节点中的类是构建过程的最终结果。

决策树的构建是基于某些质量标准/分裂规则(基尼不确定性(Gini impurity/Gini index),信息增益,误分类误差)的贪心最大化原理的自动过程:在每一步,算法选择在拆分时给出最大值的变量。然后递归地重复该过程,直到熵为零(或一些小值以解释过度拟合)。

最大化基尼不确定性可以解释为最大化同一子树中同一类的对象对的数量。

我将在下面留下一个树的例子。

在此处输入图像描述

此外,如果你愿意,你可以查看这个主题的精彩笔记本,它可以全面理解决策树及其背后的理论:

https://mlcourse.ai/articles/topic3-dt-knn/#2.-Decision-Tree