数据挖掘 - 稀疏特征对基于树的模型的影响 - 吾爱随笔录

数据挖掘机器学习分类数据挖掘决策树 xgboost

2022-02-22 13:29:20

假设您有一个高度不平衡的二元分类问题。一些特征是二元特征，它们在大多数情况下都是错误的，但当它们为真时，它们往往具有高度预测性（属于少数类）。如果有的话，特征的稀疏性会对特征被选择为分裂的可能性产生什么影响？

1个回答

当然，有不同的拆分算法和损失会稍微改变这些情况下的行为。但是，如果我们看一下现代基于树的算法中最常见的选择，我们可以推断出会产生什么影响。

让我们有一个场景，我们有两个二进制特征，我们必须在它们之间做出决定，以及它们对应的目标分布。

P (f_{1} = 0) = 0.95

$P(f_1=0) = 0.95$

P (y = 0 | f_{1} = 0) = 0.5

$P(y=0|f_1=0)= 0.5$

P (y = 0 | f_{1} = 1) = 0.05

$P(y=0|f_1=1)= 0.05$

P (y = 0) = 0.5225

$P(y=0) = 0.5225$

这意味着特征 1 主要是 0，在这种情况下目标是否为 0 是 50/50，但如果它是 1，那么目标也几乎总是 1。

现在我们有了第二个功能，它有点不同。

P (f_{2} = 0) = 0.5

$P(f_2=0) = 0.5$

P (y = 0 | f_{2} = 0) = 0.4225

$P(y=0|f_2=0)= 0.4225$

P (y = 0 | f_{2} = 1) = 0.6225

$P(y=0|f_2=1)= 0.6225$

在这种情况下，特征被平均分割，并且有预测影响，但不那么极端。

通过减少基尼杂质，我们希望尽量减少必要的分裂次数。当前的基尼杂质是：

G_{I} (p) = 1 - {0.5225}^{2} - (1 - 0.5225)^{2} = 0.4989875

$G_I(p) = 1 - 0.5225^2 - (1-0.5225)^2 = 0.4989875$

在对特征进行拆分时，我们需要采用加权平均基尼杂质并检查减少量。

G_{I f 1 = 0} = 0.5

$G_{If1=0} = 0.5$

G_{I f 1 = 1} = 1 - {0.05}^{2} - {0.95}^{2} = 0.095

$G_{If1=1} = 1 - 0.05^2 - 0.95^2 = 0.095$

鉴于大多数分裂 (95%) 会向左走，我们会增加一个权重：

G_{I f 1} = 0.95 * 0.5 + 0.05 * 0.095 = 0.47975

$G_{If1} = 0.95*0.5 + 0.05*0.095 = 0.47975$

在第二个功能中，我们有：

G_{I f 2 = 0} = 1 - {0.4225}^{2} - (1 - 0.4225)^{2} = 0.4879875

$G_{If2=0} = 1 - 0.4225^2 - (1-0.4225)^2 = 0.4879875$

G_{I f 2 = 1} = 1 - {0.6225}^{2} - (1 - 0.6225)^{2} = 0.4699875

$G_{If2=1} = 1 - 0.6225^2 - (1-0.6225)^2 = 0.4699875$

鉴于分裂相等，我们得到一个正常的平均值：

G_{I f 2} = 0.4879875 * 0.5 + 0.5 * 0.4699875 = 0.4789875

$G_{If2} = 0.4879875*0.5 + 0.5*0.4699875 = 0.4789875$

在这种情况下，它有点接近，但它会选择稀疏度较低的特征。原因是，虽然最小杂质差很多，但由于分裂完全平衡，减少的影响对双方的影响更大。在稀疏的情况下，右侧的分裂有很大的减少，但仅占 0.05 的情况，而左侧的杂质最高。如您所见，在任一侧的杂质与杂质减少的情况之间存在权衡。

其它你可能感兴趣的问题