套索回归或顺序前向选择哪种方法更好?

数据挖掘 机器学习 回归 特征选择
2022-01-28 16:44:29

我有近 200 个特征的庞大数据,其中几个可能是相关的?考虑到特征之间的相关性,为了选择首选 Lasso 回归或顺序前向选择的最佳特征。(我不能在此运行 pca,因为特征转换会转换无法解释的特征)。

  • 我理解的几件事是:套索真的很快,顺序向前选择非常慢。但我不确定套索在相关特征下的表现如何,即我觉得权重可能分布在相关的特征(假设必要的特征)之间,并且由于共享套索导致的低权重可能表明它们是不相关的特征。
1个回答

我认为一种算法比另一种算法没有明显的优势:我建议运行交叉验证来研究哪种算法最适合手头的数据。您已经建议了前向步进和套索,它们都执行特征选择,您还可以研究后向步进和最佳子集选择。线性回归模型训练速度很快,所以也许你可以调查所有 4 种算法的交叉验证误差。

希望这可以帮助。