我正在训练一个 XGboost 模型,用于对大约 60 个稀疏数字特征进行二进制分类。训练后的特征重要性分布有一个特征的重要性> 0.6,其余所有的重要性<0.05。
我删除了最重要的功能,然后重新训练。相同的分布形式;最重要的特征的重要性> 0.6,其余的< 0.05。我继续删除最重要的功能并重新训练,删除并重新训练,删除和重新训练等。我的 f1 分数开始下降,但每次都有一个功能比其他功能更重要。
另外值得注意的是,当我删除最重要的特征并重新训练时,新的最重要的特征并不是之前训练的第二重要特征。
我无法直观地解释这种行为。有谁知道为什么会出现这种模式?