Sklearn 有一个feature_importances_
属性,但这是高度特定于模型的,我不确定如何将其解释为删除最重要的特征并不一定会最大程度地降低模型质量。
是否有一种与模型无关的方法来判断哪些特征对预测问题很重要?
我能看到的唯一方法是:
- 使用不同模型的集合
- 要么从一大组功能开始,然后一次删除一个。要找到“提升”的特征,请将集成质量与完整特征集与集成质量与移除的特征集进行比较。
(这不能做的是找到连接的特征:一些特征可能不完全相同,但有一个共同的潜在原因,这对预测很重要。因此删除它们中的任何一个不会有太大变化,但删除两者可能改变很多。我问另一个问题。)