我有兴趣了解决策树如何选择它们分裂的顺序。我知道分裂是基于信息增益。选择信息增益最低的属性作为根节点。
如果我有一个包含列的数据集:
- 信用状况
- 年龄
- 收入,
- 婚姻状况
我很想知道是什么决定了一个人的信用状况是好是坏,我说得对吗,我根据独立属性计算这些分类属性中的每一个的熵和信息增益,即我正在调查的内容(信用状况),并且选择信息增益最低的计算作为根节点。
例如,如果这个根节点(第一次分裂)是Age,是不是计算Age(新的独立属性)相对于其余属性(婚姻状况和收入)的熵和信息增益,那么信息增益最低的计算是被选为第二个分裂节点,等等?
IE。
信息增益:
credit standing vs age = 0.01
credit standing vs status = 0.1
credit standing vs income = 0.2
年龄被选为根(第一个分裂)节点。
然后,信息增益:
age vs status = 0.2
age vs income = 0.1
收入被选为第二个分裂节点。
我是否正确理解这一点?