我有一个随机森林分类器和多项朴素贝叶斯。对于特征重要性,我对随机森林使用基尼指数,对于多项朴素贝叶斯,我使用每个特征的系数。然后归一化以比较两个列表,但两者之间存在很大差异。这是正常的吗?就像是
射频与窄带
- A - C
- 乙 - 丁
- C - A
- D B
我有一个随机森林分类器和多项朴素贝叶斯。对于特征重要性,我对随机森林使用基尼指数,对于多项朴素贝叶斯,我使用每个特征的系数。然后归一化以比较两个列表,但两者之间存在很大差异。这是正常的吗?就像是
射频与窄带
这是正常的吗?
这并不奇怪。
首先,您正在使用不同的特征重要性度量。这就像用 a) 体重、b) 身高、c) 财富和 d) 智商来衡量人们的重要性(或简单地对他们进行分类)。使用 a 和 b 您可能会得到非常相似的结果,但这些结果可能与使用 c 和 d 获得的结果不同。
其次,您的模型的性能可能会有所不同。在极端情况下,您的一个模型的输出可能完全是垃圾(在您的情况下,它更有可能是 NB)。那么用这种模型产生的特征重要性度量是不可信的。在不太极端的情况下,当模型的性能差异不那么显着时,两个不同模型产生的重要性的可信度更具可比性。由于第一个论点,重要性仍然可能完全不同,即用于捕获重要性的不同语言。
编辑:
你没有在你的问题中问过这个问题,但是有一些与模型无关的特征重要性方法,即可以应用于任何预测模型。例如,检查排列重要性方法,在The Elements of Statistical Learning 的“15.3.2 变量重要性”一章中描述