我正在尝试使用随机森林从 15K 特征中选择重要变量并将它们拟合到逻辑回归中。我的评估是基于F1分数。数据集 2 类比率约为:99.5:0.5。
这是 15K 特征的来源:最初我有 2000 个特征,在对它们进行模糊处理(仅从分类变量中提取前 100 个类别)之后,它变成了 16K。去除零方差后,它变成了 15K。我不想消除接近零的方差,因为我的班级不平衡率也很小。我之前尝试过去除接近零方差的特征,它显着减少了特征的数量,但是逻辑回归结果也不好。
然而,使用网格搜索后,随机森林的交叉验证 f1 分数仍然很低。(小于 0.01)
此外,我尝试对训练数据进行欠采样以使其达到 1:1,但随机森林的交叉验证 F1 分数仍然很差。:(
所以我在考虑不选择重要的变量,而只是将所有特征都拟合到逻辑回归中。
由于内存问题,我无法将所有 15K 特征直接拟合到逻辑回归中,但如果我从随机森林中选择重要变量,它们不会对看不见的测试数据进行泛化。
关于如何解决问题的任何想法?我知道一种替代方法是使用散列,这样我就可以适应所有 15K 特征。