什么时候应该使用基尼杂质而不是信息增益(熵)?

数据挖掘 机器学习 决策树 信息论
2021-09-27 19:40:19

有人可以实际解释基尼杂质信息增益(基于熵)背后的基本原理吗?

在使用决策树时,哪个指标更适合在不同场景中使用?

4个回答

基尼杂质和信息增益熵几乎相同。人们确实可以互换使用这些值。以下是两者的公式:

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

如果有选择,我会使用 Gini 杂质,因为它不需要我计算计算密集型的对数函数。也可以找到其解的闭合形式。

在使用决策树时,哪个指标更适合在不同场景中使用?

基尼杂质的原因如上所述。

因此,在 CART 分析方面,它们几乎相同。

两种方法计算比较的有用参考

通常,无论您使用 Gini impurity 还是 Entropy,您的表现都不会改变。

Laura Elena Raileanu 和 Kilian Stoffel 在“基尼指数与信息增益标准之间的理论比较”中对两者进行了比较。最重要的评论是:

  • 无论您使用基尼杂质还是熵,仅在 2% 的情况下很重要。
  • 熵的计算可能会慢一些(因为它使用对数)。

有人告诉我,这两个指标都存在,因为它们出现在不同的科学学科中。

基尼适用于连续属性,熵适用于类中出现的属性

基尼是为了最小化错误分类
是为了探索性分析

熵的计算速度有点慢

对于具有两个值的变量,以分数出现 f(1f)
基尼系数和熵由下式给出:

gini=2f(1f)

entropy=fln(1f)+(1f)ln(1(1f))

如果按比例缩放,这些措施非常相似 1.0 (绘图 2ginientropyln(2)):

基尼(y4,紫色)和熵(y3,绿色)值缩放以进行比较