在决策树分裂的背景下,不明显看到为什么基尼杂质
是节点 t 杂质的度量。对此有简单的解释吗?
在决策树分裂的背景下,不明显看到为什么基尼杂质
想象一个实验可能的输出类别。类别有发生概率(在哪里)
重复实验两次并进行以下观察:
就是这样:基尼杂质只是获得两个不同输出的概率,这是一种“杂质度量”。
注:基尼指数的另一种表达方式是:
这是相同的数量:
Gini 杂质 = 逻辑熵 = Gini-Simpson 生物多样性指数 = 具有逻辑距离函数的二次熵 (1-Kroneckerdelta) 等。参见:Ellerman, David。2018.“逻辑熵:经典和量子逻辑信息理论导论”。熵 20 (9):文章 ID 679。https://doi.org/10.3390/e20090679以及其中包含的参考资料。