我有一个关于在运行统计学习算法之前需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等)的问题。
我们知道为了避免过度拟合,我们可以在权重向量上引入正则化惩罚。
所以如果我想做线性回归,那么我可以引入 L2 或 L1 甚至 Elastic 网络正则化参数。为了获得稀疏解决方案,L1 惩罚有助于特征选择。
那么在运行 L1 正则化回归(例如 Lasso)之前是否还需要进行特征选择?从技术上讲,Lasso 正在帮助我通过 L1 惩罚来减少特征,那么为什么在运行算法之前需要选择特征呢?
我读了一篇研究文章,说先做 Anova 然后 SVM 比单独使用 SVM 提供更好的性能。现在的问题是:SVM 本质上使用 L2 范数进行正则化。为了最大化边距,它正在最小化权重向量范数。所以它正在对其目标函数进行正则化。那么从技术上讲,诸如 SVM 之类的算法不应该为特征选择方法而烦恼吗?但是报告仍然说在普通 SVM 之前进行单变量特征选择更强大。
有想法的人吗?