为什么我们在决策树中使用信息增益而不是准确性作为分割标准?

数据挖掘 机器学习 分类 决策树 信息论
2021-10-09 20:09:16

在决策树分类器中,大多数算法使用信息增益作为吐痰标准。我们选择具有最大信息增益的特征进行拆分。

我认为使用准确性而不是信息增益是更简单的方法。是否存在准确性不起作用而信息增益起作用的情况?

谁能解释使用信息增益而不是准确性作为分割标准的优势是什么?

1个回答

决策树通常容易过度拟合,并且准确性不能很好地推广到看不见的数据。信息增益的一个优点是——由于以下因素plog(p) 在熵定义中——具有少量实例的叶子被分配较少的权重(limp0+plog(p)=0) 并且它倾向于将数据分成更大但同质的组。这种方法通常更稳定,并且还会选择靠近树根的最有影响力的特征。

编辑:准确性通常是不平衡数据的问题。考虑这个玩具示例:

Weather Wind    Outcome
Sunny   Weak    YES
Sunny   Weak    YES
Rainy   Weak    YES
Cloudy  Medium  YES
Rainy   Medium  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO

Weather 和 Wind 都只产生一个不正确的标签,因此具有相同的 16/17 精度。然而,鉴于这些数据,我们假设弱风(75% 是)比晴天(50% 是)更能预测积极的结果。也就是说,风教会了我们更多关于这两种结果的信息。由于只有很少的数据点可以得到积极的结果,我们更喜欢风而不是天气,因为风在较小的标签集上更具预测性,我们希望给我们一个对新数据更稳健的规则。

结果的熵是 4/17log2(4/17)14/17log2(14/17))=0.72. 天气和结果的熵是14/17(1/14log2(1/14)13/14log2(13/14))=0.31 这导致信息增益 0.41. 类似地,风给出了更高的信息增益0.6.