它在分类中比在回归分析中更重要吗?我们用基尼指数来衡量吗?如果是这样,通常的价值和含义是什么?
什么是简单英语的决策树中的节点杂质/纯度?为什么我们需要它?
机器算法验证
机器学习
大车
2022-03-15 09:05:36
1个回答
什么是决策树中的节点杂质/纯度?
分类树
直观地,您可以将一组示例视为金属球中的一组原子,而示例的类别就像一种原子(例如金)。
- 如果球的所有原子都是金 - 你会说球是纯金,并且它的纯度最高(并且它的杂质水平最低)。类似地,如果集合中的所有示例都属于同一类,则集合的纯度最高。
- 如果 1/3 的原子是金、1/3 的银和 1/3 的铁——你会说对于由 3 种原子组成的球,它的纯度最低。同样,如果示例在所有类之间平均分配,则集合的纯度最低。
(我从这里拿了类比。)
因此,一组示例的纯度是其示例的同质性——就它们的类别而言。
回归树
纯度概念的要点在这里是完全一样的(这是幸运的,因为我担心这个类比不太自然)。
您可以将一组示例视为图片中应仅包含一种颜色的像素集,而(示例)目标变量的值就像连续色谱上的一种颜色。
- 如果大部分像素的颜色非常接近紫色,你会说图片几乎是纯紫色。同样,如果示例的目标变量彼此非常接近,则集合的纯度很高。
为什么我们需要纯洁?
维基百科说:
已知学习最优决策树的问题是[...]
即任何保证找到最优决策树的算法都是低效的(假设,这仍然是未知的),但不能保证找到最优决策树的算法可能更有效。
所以人们想出了这样更有效的算法,其中一些是基于杂质测量的。
这些算法中的大多数使用称为决策树自上而下归纳(TDIDT) 的过程,大致如下所示:
- 表示示例集。
- 如果足够纯,则返回一个单节点树,标记为 S 中最常见的类中目标值的平均值,如果是回归树)。
- 否则,找到一个测试来检查一个特征(或多个特征)并将相应地划分为不相交的集合,以使它们的“整体纯度”最高(例如最高)。
- 返回一棵树,其根有个儿子。根是测试,它的子是通过递归调用每个的算法来计算的。
即此类算法中最重要的部分——决定如何拆分由纯度决定。
我们用基尼指数来衡量纯度吗?
与熵、方差、MSE和RSS一起,基尼指数是杂质的流行度量之一。
我认为维基百科关于Gini index的解释,以及这个Quora question 的答案应该回答你的最后一个问题(关于 Gini index)。
纯度在分类中比在回归分析中更重要吗?
我不确定您所说的重要是什么意思,但是在这两种情况下,我们都尝试拆分 S 以使的“整体纯度”最高,所以我想说纯度在两种情况下都同等重要决策树。
其它你可能感兴趣的问题