假设您有一个高度不平衡的二元分类问题。一些特征是二元特征,它们在大多数情况下都是错误的,但当它们为真时,它们往往具有高度预测性(属于少数类)。如果有的话,特征的稀疏性会对特征被选择为分裂的可能性产生什么影响?
稀疏特征对基于树的模型的影响
数据挖掘
机器学习
分类
数据挖掘
决策树
xgboost
2022-02-22 13:29:20
1个回答
当然,有不同的拆分算法和损失会稍微改变这些情况下的行为。但是,如果我们看一下现代基于树的算法中最常见的选择,我们可以推断出会产生什么影响。
让我们有一个场景,我们有两个二进制特征,我们必须在它们之间做出决定,以及它们对应的目标分布。
这意味着特征 1 主要是 0,在这种情况下目标是否为 0 是 50/50,但如果它是 1,那么目标也几乎总是 1。
现在我们有了第二个功能,它有点不同。
在这种情况下,特征被平均分割,并且有预测影响,但不那么极端。
基尼杂质
通过减少基尼杂质,我们希望尽量减少必要的分裂次数。当前的基尼杂质是:
在对特征进行拆分时,我们需要采用加权平均基尼杂质并检查减少量。
鉴于大多数分裂 (95%) 会向左走,我们会增加一个权重:
在第二个功能中,我们有:
鉴于分裂相等,我们得到一个正常的平均值:
在这种情况下,它有点接近,但它会选择稀疏度较低的特征。原因是,虽然最小杂质差很多,但由于分裂完全平衡,减少的影响对双方的影响更大。在稀疏的情况下,右侧的分裂有很大的减少,但仅占 0.05 的情况,而左侧的杂质最高。如您所见,在任一侧的杂质与杂质减少的情况之间存在权衡。