决策树排序

数据挖掘 决策树
2022-03-11 10:30:20

我有兴趣了解决策树如何选择它们分裂的顺序。我知道分裂是基于信息增益。选择信息增益最低的属性作为根节点。

如果我有一个包含列的数据集:

  1. 信用状况
  2. 年龄
  3. 收入,
  4. 婚姻状况

我很想知道是什么决定了一个人的信用状况是好是坏,我说得对吗,我根据独立属性计算这些分类属性中的每一个的熵和信息增益,即我正在调查的内容(信用状况),并且选择信息增益最低的计算作为根节点。

例如,如果这个根节点(第一次分裂)是Age,是不是计算Age(新的独立属性)相对于其余属性(婚姻状况和收入)的熵和信息增益,那么信息增益最低的计算是被选为第二个分裂节点,等等?

IE。

信息增益:

credit standing vs age    = 0.01
credit standing vs status = 0.1
credit standing vs income = 0.2

年龄被选为根(第一个分裂)节点。

然后,信息增益:

age vs status = 0.2
age vs income = 0.1

收入被选为第二个分裂节点。

我是否正确理解这一点?

1个回答

在您的场景中,您需要选择具有更多信息增益而不是最少的一个,并且该过程继续进行,直到您到达最后一个特征/最后一个节点。

通过这个链接我认为你反之亦然,我同意Emre

在上面的链接中,它通过一个示例进行了解释,以决定是否打网球。

如果您有任何问题,请告诉我。