仅使用 LASSO 进行特征选择

机器算法验证 特征选择 套索 回归策略
2022-03-13 19:26:48

在我的机器学习课上,我们了解了 LASSO 回归如何非常擅长执行特征选择,因为它利用了正则化。l1

我的问题:人们通常使用 LASSO 模型只是为了进行特征选择(然后继续将这些特征转储到不同的机器学习模型中),还是他们通常使用 LASSO 来执行特征选择和实际回归?

例如,假设你想做岭回归,但你认为你的很多特征都不是很好。运行 LASSO 是否明智,仅采用算法未接近零的特征,然后仅使用那些将数据转储到岭回归模型中的特征?通过这种方式,您可以获得正则化以执行特征选择的好处,还正则化以减少过度拟合的好处。(我知道这基本上相当于弹性网络回归,但似乎您不需要在最终回归目标函数中l1l2l1l2

除了回归之外,在执行分类任务(使用 SVM、神经网络、随机森林等)时,这是一个明智的策略吗?

2个回答

几乎所有进行某种形式的模型选择然后进行进一步分析的方法,就好像以前没有发生过模型选择一样,通常比例都很差。除非有令人信服的理论论据得到证据的支持,例如对现实样本大小和特征与样本大小比率的广泛模拟研究表明这是一个例外,否则这种方法很可能具有不令人满意的特性。我不知道这种方法有任何这样的积极证据,但也许其他人是。鉴于有实现所有期望目标的合理替代方案(例如弹性网络),这种方法很难证明使用这种可疑的临时方法是合理的。

除了上述所有答案:可以计算 2x2 和 rxc 表的精确 chi2 置换测试。我们需要将观察到的卡方统计量值与渐近卡方分布进行比较,而不是将其与精确的排列分布进行比较。我们需要以所有可能的方式排列我们的数据,保持行和列的边距不变。对于每个排列的数据集,我们计算了 chi2 统计量。然后,我们将观察到的 chi2 与(排序的) chi2 统计数据进行比较。在置换的 chi2 测试统计数据中,真实测试统计数据的排名给出了一个 p 值。