随机森林预测中特征的正面或负面影响

数据挖掘 机器学习 分类 随机森林 预测重要性
2022-01-20 11:40:36

在分类中,当我们想得到随机森林算法中每个变量的重要性时,我们通常使用 Gini 中的 Mean Decrease 或 Accuracy 度量中的 Mean Decrease。现在是否有一个指标可以计算每个变量的正面或负面影响,而不是对模型的预测准确性,而是对因变量本身类似于标准线性回归模型中的 beta 系数,但在随机森林分类的​​背景下。

1个回答

使用决策树,您无法像通过系数进行线性回归那样直接获得每个变量的正面或负面影响。它只是不是决策树的工作方式。正如您所指出的,训练过程涉及通过查看基尼指数或与目标变量的互信息来找到每个节点的最佳特征和拆分。但是在我们可以用于此类分析的过程中没有学习任何参数。

用于此目的的常用工具是SHAP. 事实上,基于决策树的模型有一个特定的解释器,即TreeExplainer. SHAP您可以获得特征在推动标签的一个或另一个值方面的贡献,以及所有特征贡献的整体视图。