对于线性模型(如线性回归、逻辑回归等),特征工程是提高模型性能的重要步骤。我的问题是,如果我们在使用随机森林或梯度提升的同时进行任何特征工程,这有关系吗?
当然,这些模型不是深度学习模型。但是,似乎某些特征工程方法并没有真正改善模型。例如:我在做一个二分类问题,它包含大约200个特征,其中20个是分类特征。我做了以下事情:
基准测试:直接在原始数据上运行随机森林分类器。我得到的AUC在0.93左右,precision,recall & F-score在0.95左右(我说的是左右,因为应用了statifiedKfold验证,结果变化很小)
我通过卡方检验和 ANOVA f1 检验降低了特征维度,运行模型。结果几乎相同:AUC 约为 0.93,准确率、召回率和 F 分数约为 0.95
然后我对所有分类特征进行热键,然后重新运行模型,结果仍然几乎相同:AUC 约为 0.93,精度、召回率和 F-score 约为 0.95
然后应用截断的 SVD 进一步减少特征,并重新训练模型,结果仍然没有变化......
最后我添加了多项式项,剩余特征的交叉项。结果还是没变……
请问有什么建议吗?谢谢你。