python sklearn决策树分类器feature_importances_在使用连续值时具有特征名称

数据挖掘 Python scikit-学习 决策树
2022-01-30 09:04:04

我正在使用具有一些连续特征的 sklearn 决策树分类器。当我运行 export_graphviz 时,我会在多个节点中看到相同的功能并且具有不同的值。例子: 在此处输入图像描述

我想选择最重要的,并希望为此使用 feature_importances_。问题是 feature_importances_ 是没有参考树节点的数组。我拥有原始特征,但由于每个特征都可以在树中多次出现,我不确定如何将重要性与节点联系起来。

1个回答

我认为你在这里混合了两种不同的东西。

  1. feature_importance_ - 这是一个数组,它反映了模型的每个原始特征对整体分类质量的贡献程度。
  2. 树中的特征位置 - 这只是树中每个步骤中制定的决策规则的表示。就重要性而言,树中的特征位置并不是那么微不足道。

有一些潜在的启发式方法可以理解两者之间的关系。如果一个特征没有出现在树中,它的重要性为 0,并且通常树中的特征越高,它越重要(假设它与同一分支上的另一个特征进行比较)。