我曾经听说过一种使用套索两次的方法(如双套索),您对原始变量集(例如 S1)执行套索,获得一个称为 S2 的稀疏集,然后在集 S2 上再次执行套索以获得集 S3 . 这有方法论术语吗?另外,做两次套索有什么好处?
做“双套索”或两次套索的好处?
机器算法验证
回归
套索
正则化
拉尔斯
2022-02-06 07:02:04
2个回答
是的,您正在询问(或考虑)的过程称为轻松套索。
一般的想法是,在第一次执行 LASSO 的过程中,您可能包括“噪声变量”;对第二组变量(在第一个 LASSO 之后)执行 LASSO 可以减少作为模型一部分的“真正竞争对手”变量之间的竞争,而不仅仅是“噪声”变量。从技术上讲,这种方法的目的是克服 LASSO 在具有大量变量的数据集中的(已知的)缓慢收敛的问题。
您可以在Meinshausen (2007)的原始论文中了解更多信息。
我还推荐第 3.8.5 节关于统计学习的要素 (Hastie, Tibshirani & Friedman, 2008),它概述了使用 LASSO 执行变量选择的其他非常有趣的方法。
这个想法是将套索的两种效果分开
- 变量选择(即,许多,甚至大多数, s 为零)
- 系数收缩(即,即使是非零的绝对值也比无惩罚回归中的要小)。即使没有选择,这通常也是一件好事,因为您可以避免过度拟合。
如果您有很多变量(),并且正在运行套索,那么您希望选择少量变量时会受到很大的惩罚。但是,此惩罚可能会过多地缩小所选变量(您拟合不足)。
松弛套索的想法是将两种效果分开:在第一次通过时使用高惩罚来选择变量;并在第二次通过较小的惩罚以将它们缩小较小的量。
原始论文(由 Néstor 链接)提供了更多细节。
其它你可能感兴趣的问题