我正在尝试优化数据集中的特征以获得更好的预测模型。我使用了来自 mlxtend 的详尽特征选择器。这会检查所有可能的特征组合。我有一个包含 80 多个特征的数据集,我通过 10 倍交叉验证将要选择的最大特征设置为 20。有 9k 个条目,估计器是随机森林回归器。这已经运行了大约三天。这是正常的吗?以前我在同一个数据集上使用 10 折交叉验证运行递归特征消除。大约花了24小时。
efs = EFS(RandomForestRegressor(),
min_features=3,
max_features=20,
scoring='neg_mean_squared_error',
cv=10)
efs.fit(X, Y)