“特征重要性”是否取决于模型类型?

数据挖掘 特征选择 特征工程 预测重要性
2021-09-26 09:23:02

我正在研究一个小分类问题(来自 sklearn 的乳腺癌数据集),并试图确定哪些特征对预测标签最重要。我知道有几种方法可以在这里定义“重要特征”(排列重要性,树中的重要性......),但我做了以下事情:1)在逻辑回归中按系数值对特征进行排名;2)根据随机森林的“特征重要性”对特征进行排序。这些并不能完全讲述同一个故事,而且我认为线性模型中可能“不重要”的特征在可以“理解”它的非线性模型中可能非常具有辨别力。

一般情况下是这样吗?或者“重要”特征(对分类得分贡献最大的特征)在所有类型的模型中是否应该相同?

2个回答

到目前为止,您的直觉是正确的。特征重要性不会跨模型扩展。xgboost 模型的特征分数可能无关紧要,并且是对另一个模型的错误假设。没有完美的方法来定义重要特征。它确实需要一些关于一般数据的先验知识。

当谈到特征重要性时,我总是采用与模型无关的度量,正如您所提到的,如果您有两个不同的模型,它们将以不同的术语解释重要性(线性模型作为系数,基于树的模型作为信息增益/每个特征的杂质减少。

因此,您已经提到了一种不依赖于模型的度量,而是依赖于您感兴趣的度量;排列重要性并不关心你使用的是什么模型,而是一个特征对全局性能的影响。

此参考资料可能会让您更好地了解使用置换重要性相对于基于树的模型重要性的优势置换重要性与随机森林特征重要性