稀疏特征对基于树的模型的影响

数据挖掘 机器学习 分类 数据挖掘 决策树 xgboost
2022-02-22 13:29:20

假设您有一个高度不平衡的二元分类问题。一些特征是二元特征,它们在大多数情况下都是错误的,但当它们为真时,它们往往具有高度预测性(属于少数类)。如果有的话,特征的稀疏性会对特征被选择为分裂的可能性产生什么影响?

1个回答

当然,有不同的拆分算法和损失会稍微改变这些情况下的行为。但是,如果我们看一下现代基于树的算法中最常见的选择,我们可以推断出会产生什么影响。

让我们有一个场景,我们有两个二进制特征,我们必须在它们之间做出决定,以及它们对应的目标分布。

P(f1=0)=0.95

P(y=0|f1=0)=0.5

P(y=0|f1=1)=0.05

P(y=0)=0.5225

这意味着特征 1 主要是 0,在这种情况下目标是否为 0 是 50/50,但如果它是 1,那么目标也几乎总是 1。

现在我们有了第二个功能,它有点不同。

P(f2=0)=0.5

P(y=0|f2=0)=0.4225

P(y=0|f2=1)=0.6225

在这种情况下,特征被平均分割,并且有预测影响,但不那么极端。

基尼杂质

通过减少基尼杂质,我们希望尽量减少必要的分裂次数。当前的基尼杂质是:

GI(p)=10.52252(10.5225)2=0.4989875

在对特征进行拆分时,我们需要采用加权平均基尼杂质并检查减少量。

GIf1=0=0.5

GIf1=1=10.0520.952=0.095

鉴于大多数分裂 (95%) 会向左走,我们会增加一个权重:

GIf1=0.950.5+0.050.095=0.47975

在第二个功能中,我们有:

GIf2=0=10.42252(10.4225)2=0.4879875

GIf2=1=10.62252(10.6225)2=0.4699875

鉴于分裂相等,我们得到一个正常的平均值:

GIf2=0.48798750.5+0.50.4699875=0.4789875

在这种情况下,它有点接近,但它会选择稀疏度较低的特征。原因是,虽然最小杂质差很多,但由于分裂完全平衡,减少的影响对双方的影响更大。在稀疏的情况下,右侧的分裂有很大的减少,但仅占 0.05 的情况,而左侧的杂质最高。如您所见,在任一侧的杂质与杂质减少的情况之间存在权衡。