我正在尝试确定给定数据的决策树的根节点
annual income目标变量已重命名为low、mid和high。
我正在使用基尼指数来测量我的节点的杂质。
我遵循的过程很简单:
1-计算数据集的基尼指数(目标是年收入)
gini(年收入)=1-((5/20)^2+(12/20)^2+(3/20)^2) = 0.445
2 - 为每个变量计算 gini,然后计算余数和信息增益
3 - 选择信息增益最高的变量
只是代替熵,我使用的是 gini
当我试图计算信息增益时,如果教育成为根音,我得到了负面的信息增益(这显然是不可能的)
如您所见,如果我这样做,节点的基尼指数为 0.532
信息增益(0.445-0.532)=-ve值
你能指出我做错了什么吗


