我已经使用不同的特征预测了丢失的概率。现在,当我将它与一个不重要的特征一起使用来预测丢失的概率时。第一个非常接近。对数损失接近 0.11。但是,我还有其他一些功能,我想知道这些功能是否重要。所以,我使用了这个预测概率的新特征。我发现了不稳定的行为。不仅性能(logloss)下降到 0.14,而且模型也没有选择预测概率作为重要特征。
我的主要问题:
- 这个结果背后的原因是什么?
- 我是否应该将每个功能都转储到一个模型中,然后看看哪个功能很重要?
我已经使用不同的特征预测了丢失的概率。现在,当我将它与一个不重要的特征一起使用来预测丢失的概率时。第一个非常接近。对数损失接近 0.11。但是,我还有其他一些功能,我想知道这些功能是否重要。所以,我使用了这个预测概率的新特征。我发现了不稳定的行为。不仅性能(logloss)下降到 0.14,而且模型也没有选择预测概率作为重要特征。
我的主要问题:
您可以尝试下一件事:使用 xgboost 获得一些 top k 预测,然后仅将这些预测用作特征并将它们输入 LogisticRegression 模型。如果您想对我提出的解决方案提供反馈,我很好奇这是否会有所帮助