杂质和误分类的区别

数据挖掘 决策树
2022-03-13 03:01:04

我正在阅读决策树的基尼指数定义:

Gini impurity is a measure of how often a randomly chosen element from the set would be incorrectly labeled if it was randomly labeled according to the distribution of labels in the subset. 

这似乎与错误分类相同。基尼指数只是错误分类的花哨名称吗?还是真的有一些细微的差别?谢谢!

2个回答

基尼指数只是错误分类的花哨名称吗?

不。

请注意,基尼指数的定义不涉及预测值,还涉及一些不依赖于分类器的概率。

同样在决策树的上下文中,基尼杂质对应于每个区域,并且不是单个值,例如错误分类率(从技术上讲,您也可以计算每个区域的错误分类率,但您也可以)。

有关具体示例,请参阅此笔记本

要计算错误分类率,您应该指定分类方法是什么。

Gini impurity 使用与集合中标签分布相同的随机分类。即,如果一个集合有 70 个正例和 30 个负例,每个例子将被随机标记:70% 的时间为正例,30% 的时间为负例。该分类器的误分类率为:

= Pr[Positive] * Pr[Label is Negative] + Pr[Negative] * Pr[Label is Positive]

= 0.7 * 0.3 + 0.3 * 0.7 = 0.42

我们还可以使用不同的分类器方法计算错误分类率:多数规则。在上面的例子中,我们总是预测为正。误分类率为:

= Pr[Positive] * Pr[Label is Negative] + Pr[Negative] * Pr[Label is Positive]

= 0.7 * 0 + 0.3 * 1 = 0.3

我们看到基尼杂质是一种特定类型的错误分类率。