又是我,参考这篇文章提出了非常相似的问题,这一次,我有点困惑是否应该在 KFold 交叉验证之前进行特征选择。我经常看到人们在建模之前进行一次性特征选择,想知道这是否正常?
在其中一个最热门的评论中,他提到:
我不认为那是(相当)Hastie 等人的情况。正在提倡。一般的论点是,如果特征选择使用响应,那么最好将其包含在您的 CV 程序中。如果您进行预测变量筛选,例如,通过查看它们的样本方差并排除具有小变化的预测变量,则可以作为一次性程序。
想知道如果我们不考虑响应变量,这是否意味着我们可以在 cv 之前进行一次特征选择?
事实上,如果我要在交叉验证中进行特征选择,那么对特征选择进行广泛的 EDA 有什么用?
如果我的数据集中有很多多重共线性特征,我应该在交叉验证之前处理它吗?
编辑:我一直在广泛阅读这个问题,但由于不确定在 CV 之前何时“可以”进行特征选择/减少,这真的让我很头疼。我偶然发现了来自scikit-learn的这段非常短的代码,其中他们使用 Ward 方法通过在聚类过程中选择一个截止点来删除高度相关的特征。我想知道这是否是我可以在循环之外做的事情,如果是的话,如何选择“阈值”?