我有一个主要包含财务变量(120 个特征,4k 个示例)的数据集,这些变量大多高度相关且非常嘈杂(例如技术指标),因此我想选择最大 20-30 以供以后用于模型训练(二元分类- 增加减少)。
我正在考虑使用随机森林进行特征排名。递归使用它们是个好主意吗?例如,假设在第一轮中我放弃了最差的 20%,第二轮也是如此,以此类推,直到我获得所需数量的特征。我应该对 RF 使用交叉验证吗?(对我来说,不使用 CV 是很直观的,因为这几乎是 RF 所做的。)
另外,如果我使用随机森林,我应该将它们用作二元分类器还是回归器来实际增加/减少以获得特征重要性?
顺便说一句,我想在特征选择之后尝试的模型是:SVM、神经网络、局部加权回归和随机森林。我主要在 Python 中工作。