我正在学习决策树,我觉得到目前为止我已经很好地理解了它们以及它们背后的数学原理,除了一件事:增益率。
据我了解,增益比的实施是为了惩罚可能具有很多可能值的特征。
如果一个特征有很多可能的值,那么如果我们对该特征进行拆分,可能会有一些值只指向一个类,但这仅仅是因为该特征只有 1 或 2 个具有该值的数据点无论如何。
换句话说,我们会在该特征上得到低熵的唯一原因是因为该特征可以采用很多值,因此很多这些值专门指向单个标签。所以我们的决策树算法最终会分裂成“ID#”之类的东西,并错误地计算出我们刚刚获得了巨大的信息增益。
然而,这似乎只是一个问题,因为“ID#”是我们不应该一开始就拆分的功能。我的意思是,如果我们有另一个特征也有很多可能的值,但是这些值中的每一个实际上都暗示了该数据点的一些标签,那么不应用增益比意味着我们实际上是在搞乱我们的决策树通过惩罚实际上是一个非常好的分裂与大量的信息增益?
在我们将训练数据输入算法之前,确定哪个特征与我们的标签无关不是更好吗?
IDK,我只是不明白为什么增益比真的有用......
