数据挖掘 - sklearn 随机森林回归器中的“feature_importance_”值是如何计算的？ - 吾爱随笔录

sklearn 随机森林回归器中的“feature_importance_”值是如何计算的？

数据挖掘机器学习 scikit-学习回归随机森林决策树

2022-02-18 12:05:05

我有 9000 个样本，具有五个特征和一个输出变量（都是数字的连续值）。我使用scikit模块使用随机森林回归方法。我得到了五个特征中每一个的特征重要性（使用函数feature_importances_）值的图表，它们的总和等于一。我想了解这些是什么，以及它们是如何数学计算的。有人可以解释一下吗？

1个回答

决策树通常将特征重要性建立在通过对特征进行拆分实现的杂质减少上。在分类中，通常的选择是基尼杂质，而回归树通常使用均方误差或节点样本方差。在 scikit learn 中也是如此。

对于具有左右子节点的给定（二元）节点计算为 $m$ $Gain_{m}$

G a i n_{m} = i m p u r i t y_{m} - (w e i g h t_{l e f t} \cdot i m p u r i t y_{l e f t} + w e i g h t_{r i g h t} \cdot i m p u r i t y_{r i g h t})

$Gain_{m} = impurity_{m} - (weight_{left} \cdot impurity_{left} + weight_{right} \cdot impurity_{right})$

权重被定义为子节点中父示例的份额（例如，其中是节点或叶中的示例数）。 $weight_{left} = N_{left} / N_{m}$ $N$

现在，要导出树的总杂质减少量，您需要对所有节点执行拆分并将其除以总杂质减少数该树的所有节点： $f$ $t$ $m \in M_f^{(t)}$ $f$

I m p o r t a n c e_{f}^{(t)} = \frac{\sum_{m \in M_{f}^{(t)}} G a i n_{m}}{\sum_{f} \sum_{m \in M_{f}^{(t)}} G a i n_{m}}

$Importance_f^{(t)} = \frac{\sum_{m \in M_f^{(t)}} Gain_m}{\sum_f\sum_{m \in M_f^{(t)}} Gain_m}$

（请注意，由于此标准化步骤，您的特征重要性总和为） $1$

最终，一个特征的总重要性 $f$ 在所有树上计算 $t$ 在您的随机森林中，总树数 $T$ ：

I m p o r t a n c e_{f} = \frac{1}{T} \sum_{t = 1}^{T} I m p o r t a n c e_{f}^{(t)}

$Importance_f = \frac{1}{T} \sum_{t=1}^TImportance_f^{(t)}$

其它你可能感兴趣的问题

上一篇在 Keras 中使用嵌入层输出作为 .fit() 调用的输入下一篇分类 pdf 文件 - 图像方法与文本方法