对基尼杂质的简单明了的解释?

机器算法验证 大车 直觉 基尼
2022-02-02 03:11:02

在决策树分裂的背景下,不明显看到为什么基尼杂质

i(t)=1j=1kp2(j|t)
节点 t 杂质的度量。对此有简单的解释吗?

2个回答

想象一个实验k可能的输出类别。类别j有发生概率p(j|t)(在哪里j=1,..k)

重复实验两次并进行以下观察:

  • 获得两个相同类别输出的概率j
    p2(j|t)
  • 获得两个相同输出的概率,独立于它们的类别,是:
    j=1kp2(j|t)
  • 因此,获得两个不同输出的概率为:
    1j=1kp2(j|t)

就是这样:基尼杂质只是获得两个不同输出的概率,这是一种“杂质度量”。


注:基尼指数的另一种表达方式是:

j=1kpj(1pj)
这是相同的数量:
j=1kpj(1pj)=(j=1kpj)(j=1kpj2)=1j=1kpj2

Gini 杂质 = 逻辑熵 = Gini-Simpson 生物多样性指数 = 具有逻辑距离函数的二次熵 (1-Kroneckerdelta) 等。参见:Ellerman, David。2018.“逻辑熵:经典和量子逻辑信息理论导论”。熵 20 (9):文章 ID 679。https://doi.org/10.3390/e20090679以及其中包含的参考资料。