通过基尼指数计算信息增益的负值

数据挖掘 机器学习 分类 决策树
2022-03-09 05:52:49

我正在尝试确定给定数据的决策树的根节点

在此处输入图像描述

annual income目标变量已重命名为lowmidhigh

我正在使用基尼指数来测量我的节点的杂质。

我遵循的过程很简单:

1-计算数据集的基尼指数(目标是年收入)

gini(年收入)=1-((5/20)^2+(12/20)^2+(3/20)^2) = 0.445

2 - 为每个变量计算 gini,然后计算余数和信息增益

3 - 选择信息增益最高的变量

剩下的我用这个 在此处输入图像描述

只是代替熵,我使用的是 gini

当我试图计算信息增益时,如果教育成为根音,我得到了负面的信息增益(这显然是不可能的)

我的计算: 在此处输入图像描述

如您所见,如果我这样做,节点的基尼指数为 0.532

信息增益(0.445-0.532)=-ve值

你能指出我做错了什么吗

1个回答

我很快检查了你的计算,你似乎算错了基尼(年收入)

gini(年收入)=1-((5/20)^2+(12/20)^2+(3/20)^2) = 0.445

当它实际上等于0.555(你可能忘记了那个1-...部分)时,它大于0.532所以你可能对其余的计算没问题。