我正在研究一个小分类问题(来自 sklearn 的乳腺癌数据集),并试图确定哪些特征对预测标签最重要。我知道有几种方法可以在这里定义“重要特征”(排列重要性,树中的重要性......),但我做了以下事情:1)在逻辑回归中按系数值对特征进行排名;2)根据随机森林的“特征重要性”对特征进行排序。这些并不能完全讲述同一个故事,而且我认为线性模型中可能“不重要”的特征在可以“理解”它的非线性模型中可能非常具有辨别力。
一般情况下是这样吗?或者“重要”特征(对分类得分贡献最大的特征)在所有类型的模型中是否应该相同?