添加其他功能后功能重要性的急剧变化

数据挖掘 特征选择 xgboost 特征工程 预测重要性
2022-03-05 06:59:52

我有一个模型(GBDT),其中添加特征 X 并不重要(根据 SHAP),但是当我添加其他特征并再次添加 X 时,现在特征 X 是第二重要的!

有什么可以解释的?我该如何调查正在发生的事情?

1个回答

很有可能这是过度拟合的迹象:特征的重要性不稳定的事实可以被认为是模型本身不稳定的迹象,这通常发生在模型中没有足够信息的情况下数据以确定如何使用这些功能。结果,特征或数据的微小变化会导致模型发生很大变化,因为它使用了偶然出现的特征。一种调查方法是减少特征的数量:如果模型通过这种方式变得更加稳定,则确认过度拟合(并且在测试集上的性能应该相同或更好)。

[编辑] 还有一种可能是新功能对模型非常有用,导致它以非常不同的方式使用整个功能集,因为它可以利用新的功能组合。例如,假设我们有一个模型可以根据代表患者症状的特征来预测疾病,那么我们添加代表患者年龄和性别的特征。让我们假设在特定年龄有特定症状是疾病的一个强有力的指标,所以这意味着这个症状特征本身并不是很有用,但随着附加特征变得更加重要。在这种情况下,我可能希望在添加新功能时观察到测试集的性能显着提高。