置换特征重要性 (PFI) 是在黑盒模型或难以描述特征与响应之间的关系的模型中获取特征重要性的好方法。然而,当特征高度相关时,它会受到影响,这可能会导致奇怪的结果。
有人在相关数据集上使用过这种技术吗?我正在考虑的两个解决方案是:
- 完全去除高度共线。
- 将高度相关的特征组合在一起并同时打乱它们的值(而不是一次做一列)以获得该组相关特征的单个重要性分数。
有人有其他提议吗?
置换特征重要性 (PFI) 是在黑盒模型或难以描述特征与响应之间的关系的模型中获取特征重要性的好方法。然而,当特征高度相关时,它会受到影响,这可能会导致奇怪的结果。
有人在相关数据集上使用过这种技术吗?我正在考虑的两个解决方案是:
有人有其他提议吗?
正规化。如果你规范你的模型和输入,你应该消除多重共线性的问题。
然而,相关性不是因果关系,因此虽然您可以使用您的方法为您的特征分配“预测能力”,但您无法建立任何类型的因果关系。