我有一个数据集,我想在其中执行分类模型,所以我决定使用随机森林。我拥有的功能数量大约为 200,我想测试哪一组功能给了我更好的结果。为了实验,我不想使用任何特征重要性方法。
所以我所做的就是将我的特征拆分为 20、40、60、80 和 100 个特征组,无需替换。我正在使用 GridSearch 来调整我的 RF 的超参数。我的问题是,如果我想比较每个模型的准确性(具有 20 个特征的模型、具有 40 个特征的模型,等等),将 GridSearch 应用于每个特征子集是公平的。或者我应该只执行一次 Gridsearch,假设使用 20 个特征的模型,然后对 40 个特征、60 个特征等使用相同的超参数。
有什么帮助吗?
谢谢