模型之间的特征重要性会发生很大变化吗?

数据挖掘 随机森林 特征工程 朴素贝叶斯分类器 排行
2021-10-10 10:57:08

我有一个随机森林分类器和多项朴素贝叶斯。对于特征重要性,我对随机森林使用基尼指数,对于多项朴素贝叶斯,我使用每个特征的系数。然后归一化以比较两个列表,但两者之间存在很大差异。这是正常的吗?就像是

射频与窄带

  1. A - C
  2. 乙 - 丁
  3. C - A
  4. D B
1个回答

这是正常的吗?

这并不奇怪。

首先,您正在使用不同的特征重要性度量。这就像用 a) 体重、b) 身高、c) 财富和 d) 智商来衡量人们的重要性(或简单地对他们进行分类)。使用 a 和 b 您可能会得到非常相似的结果,但这些结果可能与使用 c 和 d 获得的结果不同。

其次,您的模型的性能可能会有所不同。在极端情况下,您的一个模型的输出可能完全是垃圾(在您的情况下,它更有可能是 NB)。那么用这种模型产生的特征重要性度量是不可信的。在不太极端的情况下,当模型的性能差异不那么显着时,两个不同模型产生的重要性的可信度更具可比性。由于第一个论点,重要性仍然可能完全不同,即用于捕获重要性的不同语言。

编辑:

你没有在你的问题中问过这个问题,但是有一些与模型无关的特征重要性方法,即可以应用于任何预测模型。例如,检查排列重要性方法,在The Elements of Statistical Learning 的“15.3.2 变量重要性”一章中描述