基尼系数与基尼杂质 - 决策树

数据挖掘 数据挖掘
2021-10-08 21:48:59

问题涉及决策树的构建。根据维基百科,“基尼系数”不应与“基尼杂质”混淆。然而,在构建决策树时可以使用这两种度量——这些可以支持我们在拆分项目集时的选择。

1) 'Gini impurity' - 这是一个标准的决策树分裂指标(见上面的链接);

2)“基尼系数”——可以根据 AUC 标准评估每个拆分。对于每个拆分场景,我们可以构建 ROC 曲线并计算 AUC 指标。根据维基百科 AUC=(GiniCoeff+1)/2;

问题是:这两种措施是否等效?一方面,我被告知不应将基尼系数与基尼杂质混淆。另一方面,这两种方法都可以用来做同样的事情——评估决策树分割的质量。

4个回答

不,尽管它们的名字并不相同,甚至不相似。

  • Gini 杂质是错误分类的一种度量,它适用于多类分类器上下文。
  • 基尼系数适用于二元分类,需要一个分类器,该分类器可以以某种方式根据属于正类的可能性对示例进行排序。

两者都可以在某些情况下应用,但它们是针对不同事物的不同措施。杂质是决策树中常用的

我举了一个数据的例子,两个人 A 和 B 分别拥有单元 1 和单元 3 的财富。根据维基百科的基尼杂质 = 1 - [ (1/4)^2 + (3/4)^2 ] = 3/8

根据维基百科,基尼系数将是下图中红线和蓝线之间的面积与蓝线下方总面积的比率

在此处输入图像描述

红线下面积为 1/2 + 1 + 3/2 = 3

蓝线下的总面积 = 4

所以基尼系数 = 3/4

显然这两个数字是不同的。我将检查更多案例以查看它们是否成比例或存在确切关系并编辑答案。

编辑:我也检查了其他组合,比率不是恒定的。下面是我尝试过的几个组合的列表。 在此处输入图像描述

我相信它们本质上代表的是同一件事,即所谓的:

“基尼系数”主要用于经济学,衡量一个数值变量的不平等,例如收入,我们可以将其视为一个回归问题——获得每个群体的“均值”。

“基尼杂质”主要用在决策树学习中,衡量一个分类变量的杂质,比如颜色、性别等,这是一个分类问题——得到每个组的“多数”。

听起来很相似吧?“不平等”和“杂质”都是变异的度量,直观上是同一个概念。区别在于数值变量的“不等式”和分类变量的“杂质”。并且两者都可以命名为“基尼指数”。


Light, RJ 和 Margolin, BH (1971)。分类数据的方差分析,它说由于“均值”是分类数据的未定义概念,基尼系数将“基尼指数”从数值数据扩展到分类数据,使用成对差异而不是与均值的偏差。TL;DR 涉及分类响应的变化:

12n[ijninj]=n212ni=1Ini2
在哪里 ni 是响应的数量 i类别, i=1,,I 这几乎是一样的,但是 n2 倍受当今“基尼杂质”的影响,
1i=1Ipi2


顺便说一句,你说你可以使用ROC作为方法2在生长决策树时选择分裂点,我不明白。你能详细说明一下吗?

PS:我同意帕斯莫德图灵的回答,维基百科可以被所有人修改,而“基尼杂质”在维基中似乎是一个不完整的项目。

我在他的回答下也看到了评论中的争议,我必须说机器学习起源于统计学,而统计学是科学研究的基本分析工具,因此统计学中的许多概念是同一个东西,即使它们有不同的名称在不同的专业领域。基尼指数在决策树和经济学中当然同名。

我认为它们都代表相同的概念。

在分类树中,基尼指数用于计算数据分区的杂质。所以假设数据分区 D 由 4 个类组成,每个类的概率相等。那么基尼指数(基尼杂质)将是: Gini(D)=1(0.252+0.252+0.252+0.252)

在 CART 中,我们执行二元拆分。因此,基尼指数将被计算为结果分区的加权和,我们选择具有最小基尼指数的分割。

所以基尼杂质(Gini Index)的使用并不局限于二元情况。

基尼杂质的另一个术语是基尼系数,通常用作衡量收入分配的指标。