做“双套索”或两次套索的好处?

机器算法验证 回归 套索 正则化 拉尔斯
2022-02-06 07:02:04

我曾经听说过一种使用套索两次的方法(如双套索),您对原始变量集(例如 S1)执行套索,获得一个称为 S2 的稀疏集,然后在集 S2 上再次执行套索以获得集 S3 . 这有方法论术语吗?另外,做两次套索有什么好处?

2个回答

是的,您正在询问(或考虑)的过程称为轻松套索

一般的想法是,在第一次执行 LASSO 的过程中,您可能包括“噪声变量”;对第二组变量(在第一个 LASSO 之后)执行 LASSO 可以减少作为模型一部分的“真正竞争对手”变量之间的竞争,而不仅仅是“噪声”变量。从技术上讲,这种方法的目的是克服 LASSO 在具有大量变量的数据集中的(已知的)缓慢收敛的问题。

您可以在Meinshausen (2007)的原始论文中了解更多信息

我还推荐第 3.8.5 节关于统计学习的要素 (Hastie, Tibshirani & Friedman, 2008),它概述了使用 LASSO 执行变量选择的其他非常有趣的方法。

这个想法是将套索的两种效果分开

  1. 变量选择(即,许多,甚至大多数, s 为零)β
  2. 系数收缩(即,即使是非零的绝对值也比无惩罚回归中的要小)。即使没有选择,这通常也是一件好事,因为您可以避免过度拟合。β

如果您有很多变量(),并且正在运行套索,那么您希望选择少量变量时会受到很大的惩罚。但是,此惩罚可能会过多地缩小所选变量(您拟合不足)。p>>n

松弛套索的想法是将两种效果分开:在第一次通过时使用高惩罚来选择变量;并在第二次通过较小的惩罚以将它们缩小较小的量。

原始论文(由 Néstor 链接)提供了更多细节。