什么是简单英语的决策树中的节点杂质/纯度?为什么我们需要它?

机器算法验证 机器学习 大车
2022-03-15 09:05:36

它在分类中比在回归分析中更重要吗?我们用基尼指数来衡量吗?如果是这样,通常的价值和含义是什么?

1个回答

什么是决策树中的节点杂质/纯度?

分类树

直观地,您可以将一组示例视为金属球中的一组原子,而示例的类别就像一种原子(例如金)。

  • 如果球的所有原子都是金 - 你会说球是纯金,并且它的纯度最高(并且它的杂质水平最低)。类似地,如果集合中的所有示例都属于同一类,则集合的纯度最高。
  • 如果 1/3 的原子是金、1/3 的银和 1/3 的铁——你会说对于由 3 种原子组成的球,它的纯度最低。同样,如果示例在所有类之间平均分配,则集合的纯度最低。

(我从这里拿了类比。)

因此,一组示例的纯度是其示例的同质性——就它们的类别而言。

回归树

纯度概念的要点在这里是完全一样的(这是幸运的,因为我担心这个类比不太自然)。
您可以将一组示例视为图片中应仅包含一种颜色的像素集,而(示例)目标变量的值就像连续色谱上的一种颜色。

  • 如果大部分像素的颜色非常接近紫色,你会说图片几乎是纯紫色。同样,如果示例的目标变量彼此非常接近,则集合的纯度很高。

为什么我们需要纯洁?

维基百科说:

已知学习最优决策树的问题是[...]NP

即任何保证找到最优决策树的算法都是低效的(假设,这仍然是未知的),但不能保证找到最优决策树的算法可能更有效。PNP

所以人们想出了这样更有效的算法,其中一些是基于杂质测量的。

这些算法中的大多数使用称为决策树自上而下归纳(TDIDT) 的过程,大致如下所示:

  1. 表示示例集S
  2. 如果足够纯,则返回一个单节点树,标记为 S 中最常见的类中目标值的平均值,如果是回归树)。SSS
  3. 否则,找到一个测试来检查一个特征(或多个特征)并将相应地划分为不相交的集合,以使它们的“整体纯度”最高(例如最高)。SS1,...,SkS1,...,Sk
  4. 返回一棵树,其根有个儿子。根是测试,它的子是通过递归调用每个的算法来计算的。kS1,...,Sk

即此类算法中最重要的部分——决定如何拆分由纯度决定。S

我们用基尼指数来衡量纯度吗?

与熵方差MSERSS一起,基尼指数是杂质的流行度量之一

我认为维基百科关于Gini index的解释,以及这个Quora question 的答案应该回答你的最后一个问题(关于 Gini index)。

纯度在分类中比在回归分析中更重要吗?

我不确定您所说的重要是什么意思,但是在这两种情况下,我们都尝试拆分 S 以使的“整体纯度”最高,所以我想说纯度在两种情况下都同等重要决策树。S1,...,Sk