注意:我知道 L1 具有特征选择属性。我试图了解当特征选择完全不相关时选择哪一个。
- 如何决定使用哪个正则化(L1 或 L2)?
- L1 / L2正则化各自的优缺点是什么?
- 是否建议首先使用 L1 进行特征选择,然后在这些选定的变量上应用 L2?
注意:我知道 L1 具有特征选择属性。我试图了解当特征选择完全不相关时选择哪一个。
如何决定使用哪个正则化(L1 或 L2)?
你的目标是什么?两者都可以通过惩罚系数来提高模型的泛化能力,因为与结果具有相反关系的特征可以相互“抵消”(大的正值被大的负值抵消)。当存在共线特征时,可能会出现这种情况。数据的微小变化可能导致参数估计值(高方差估计值)显着不同。惩罚可以将两个系数限制为更小。(Hastie 等人,《统计学习要素》,第 2 版,第 63 页)
L1 / L2正则化各自的优缺点是什么?
L1 正则化可以通过约束系数范数并将一些系数值固定为 0 来解决多重共线性问题。在计算上,Lasso 回归(带有 L1 惩罚的回归)是一个二次程序,需要一些特殊的工具来解决。当您的特征多于观测值时,套索将最多保留个非零系数。根据上下文,这可能不是您想要的。
L1 正则化有时用作特征选择方法。假设您对可以使用的功能数量有某种硬性限制(因为所有功能的数据收集都很昂贵,或者您对可以存储多少值有严格的工程限制等)。您可以尝试调整 L1 惩罚以达到您想要的非零特征数量。
L2正则化可以通过约束系数范数并保留所有变量来解决多重共线性问题。估计系数不太可能恰好为 0。这不一定是缺点,除非稀疏系数向量出于某种原因很重要。
在回归设置中,它是估计特征多于观察的回归问题的“经典”解决方案。L2 正则化可以估计每个特征的系数,即使特征多于观察值(事实上,这就是“岭回归”的最初动机)。
作为替代方案,弹性网络允许将 L1 和 L2 正则化作为特殊情况。行业数据科学家的一个典型用例是,您只想选择最好的模型,但不必关心它是使用 L1、L2 还是两者兼而有之。弹性网在这种情况下很好用。
是否建议首先使用 L1 进行特征选择,然后在这些选定的变量上应用 L2?
我不熟悉提出 L1-then-L2 管道的出版物,但这可能只是我的无知。它似乎没有任何问题。我会进行文献综述。
存在一些类似“分阶段”管道的示例。一种是“松弛套索”,它两次应用 lasso 回归,一次是从一大组特征中向下选择到一小部分特征,第二次是估计模型中使用的系数。这在每一步都使用交叉验证来选择惩罚的大小。理由是,在第一步中,您进行交叉验证,并且可能会选择较大的惩罚来筛选不相关的预测变量;在第二步中,您交叉验证并可能会选择较小的惩罚(因此较大的系数)。这在《统计学习要素》中简要提及,并引用了 Nicolai Meinshausen(“放松套索”。计算统计和数据分析)第 52 卷,第 1 期,2007 年 9 月 15 日,第 374-393 页)。
用户@amoeba 还建议使用 L1-then-OLS 管道;这可能很好,因为它只有 1 个超参数来表示 L1 惩罚的大小,因此需要更少的摆弄。
任何“分阶段”分析管道(即执行一些步骤,然后分别执行一些其他步骤的管道)都可能出现的一个问题是这些不同阶段之间没有“可见性”(每个步骤应用的算法)。这意味着一个进程继承了前面步骤中发生的任何数据窥探。这种影响是不可忽视的;构思不当的建模可能会导致垃圾模型。
对冲数据窥探副作用的一种方法是交叉验证您的所有选择。然而,增加的计算成本可能令人望而却步,这取决于数据的规模和每个步骤的复杂性。
一般来说,如果您想要最佳预测,请使用 L2。如果您希望牺牲一些预测性歧视,请使用 L1。但请注意,简约可能是虚幻的,例如,使用引导程序重复套索过程通常会揭示“选择”特征列表中的显着不稳定性,尤其是当预测变量相互关联时。