我有预测的稀疏特征,也有一些预测的密集特征。我需要将这些功能结合在一起,以提高分类器的整体性能。
现在,问题是当我尝试将这些组合在一起时,密集特征往往比稀疏特征更占优势,因此与只有密集特征的模型相比,AUC 仅提高了 1%。
有人遇到过类似的问题吗?真的很感激投入,有点卡住了。我已经尝试了很多不同的分类器、分类器的组合、特征转换和不同算法的处理。
在此先感谢您的帮助。
编辑:
我已经尝试了评论中给出的建议。我观察到的是,对于几乎 45% 的数据,稀疏特征表现得非常好,我得到的 AUC 约为 0.9,只有稀疏特征,但对于其余的密集特征表现良好,AUC 约为 0.75。我尝试分离出这些数据集,但我得到了 0.6 的 AUC,所以,我不能简单地训练一个模型并决定使用哪些特征。
关于代码片段,我尝试了很多东西,我不确定到底要分享什么:(