数据挖掘 - 模型之间的特征重要性会发生很大变化吗？ - 吾爱随笔录

模型之间的特征重要性会发生很大变化吗？

数据挖掘随机森林特征工程朴素贝叶斯分类器排行

2021-10-10 10:57:08

我有一个随机森林分类器和多项朴素贝叶斯。对于特征重要性，我对随机森林使用基尼指数，对于多项朴素贝叶斯，我使用每个特征的系数。然后归一化以比较两个列表，但两者之间存在很大差异。这是正常的吗？就像是

射频与窄带

A - C
乙 - 丁
C - A
D B

1个回答

这是正常的吗？

这并不奇怪。

首先，您正在使用不同的特征重要性度量。这就像用 a) 体重、b) 身高、c) 财富和 d) 智商来衡量人们的重要性（或简单地对他们进行分类）。使用 a 和 b 您可能会得到非常相似的结果，但这些结果可能与使用 c 和 d 获得的结果不同。

其次，您的模型的性能可能会有所不同。在极端情况下，您的一个模型的输出可能完全是垃圾（在您的情况下，它更有可能是 NB）。那么用这种模型产生的特征重要性度量是不可信的。在不太极端的情况下，当模型的性能差异不那么显着时，两个不同模型产生的重要性的可信度更具可比性。由于第一个论点，重要性仍然可能完全不同，即用于捕获重要性的不同语言。

编辑：

你没有在你的问题中问过这个问题，但是有一些与模型无关的特征重要性方法，即可以应用于任何预测模型。例如，检查排列重要性方法，在The Elements of Statistical Learning 的“15.3.2 变量重要性”一章中描述

其它你可能感兴趣的问题

上一篇如何优化 XGBoost 性能精度？下一篇类权重会降低多标签分类性能