这些方法——套索和弹性网络——诞生于特征选择和预测的问题。正是通过这两个镜头,我认为可以找到一个解释。
Matthew Gunn 在他的回复中很好地解释了这两个目标是不同的,并且经常由不同的人承担。然而,对我们来说幸运的是,我们感兴趣的方法可以在两个领域都表现良好。
特征选择
首先,我们来谈谈特征选择。我们首先应该从套索的角度来激发弹性网络。也就是说,引用Hastie 和 Zou的话,“如果有一组变量之间的成对相关性非常高,那么套索倾向于只从组中选择一个变量,而不关心选择哪个变量。” 例如,这是一个问题,因为这意味着我们不太可能使用套索找到真正支持的元素——只有一个与它高度相关的元素。(论文提到这在 LARS 论文中得到了证明,我还没有读过。) Wainwright也指出了存在相关性的情况下支持恢复的难度,0.5当真正的支持和它的补充之间存在高度相关性时。
现在,弹性网络中的 l2 惩罚鼓励具有仅通过损失和 l1 惩罚无法区分的系数的特征具有相等的估计系数。我们可以通过注意到(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2满足. 因此,弹性网络使我们不太可能“意外”使真正支持的系数估计消失。也就是说,真正的支持更有可能包含在估计的支持中。那挺好的!这确实意味着会有更多的错误发现,但这是大多数人愿意付出的代价。|a|=|b|
顺便说一句,值得指出的是,高度相关的特征往往具有非常相似的系数估计,因此我们可以在估计的支持中检测到类似地影响响应的特征分组。
预言
现在,我们继续进行预测。正如 Matthew Gunn 所指出的,通过交叉验证来选择调整参数的目的是为了选择一个预测误差最小的模型。由于套索选择的任何模型都可以被弹性网络选择(通过取),因此弹性网络能够找到比套索更好的预测模型是有道理的。α=1
Lederer、Yu 和 Gaynanova表明,在对特征没有任何假设的情况下,lasso 和弹性网络的 l2 预测误差都可以以相同的数量为界。它们的界限并不一定很紧,但这可能很有趣,因为预言不等式似乎是统计文献中量化估计器预测性能的标准方法——也许是因为分布是如此复杂!还值得注意的是,Lederer (1) (2)有一些关于存在相关特征的套索预测的论文。
概括
总之,感兴趣的问题是在估计的支持和预测范围内的真正支持。对于支持恢复,有严格证明的保证(通过 Wainwright)套索在假设真实支持和它的补充之间的低相关性的假设下选择正确的特征进入模型。然而,在存在相关性的情况下,我们可以回退到弹性网络,以便更有可能选择真实支持中的特征作为它选择的所有特征。(请注意,我们必须在这里仔细选择调整参数。)并且,对于通过交叉验证选择调整参数时的预测,弹性网络应该比套索表现更好 - 尤其是在存在相关性的情况下。 .
抛开预测和一些形式,我们学到了什么?我们了解了真正的支持。
置信区间
值得指出的是,在过去 2 年中,套索的有效推理发生了很大变化。特别是,Lee、Sun、Sun 和 Taylor的工作提供了以所选给定模型为条件的套索系数的精确推断。(关于真实系数的套索推断结果大约在 OP 发布时出现,并且它们在链接的论文中得到了很好的总结。)