我已经实现了在这里找到的排列重要性计算,以尝试识别对我的模型(梯度提升树模型)预测能力贡献不大的特征。
我遇到的问题是我的一些特征高度相关,在通过排列重要性评估时可能掩盖了特征的真正重要性。通常,对此的解决方案是执行诸如递归特征消除之类的操作。不幸的是,我不能这样做,因为重新训练模型的成本太高了。该模型需要大约 3 个小时来训练具有 39 个特征的特征集。
我的问题是在处理相关特征时是否可以使用排列重要性?我最初的想法是颠倒过程并改组除我想要调查的功能之外的所有功能,尽管我不知道这是否会有相同级别的解释。