回想一下,Lasso 最小化问题可以被视为两项的最小化:。要回答您的问题:OLS+L1
交点取决于 OLS 解决方案的“图形位置”。但我无法向自己解释依赖是如何运作的。
- 约束优化的解决方案在于两个函数的轮廓之间的交点,并且该交点作为的函数而变化。对于,解决方案是 MLE(像往常一样),对于,解决方案在处。λλ=0λ=∞[0,0]
- 由于在菱形的顶点,一个或多个变量的值为 0,因此一个或多个系数的值恰好等于 0 的概率非零。
正如您从图片中看到的那样,一定有一些值,其解决方案不会发生在菱形的顶点处。解决方案不能简单地从 OLS 最小值(当时)跳转到菱形的顶点。λλ=0
这是很多人的误解。套索不会神奇地将系数设置为零!它优化了 lasso 成本函数,这个优化问题的特殊结构使得解决方案很可能位于菱形的顶点。
在 p=2 的情况下,当 LASSO 不会将系数设置为零时,你们中的一些人能给我一些图形直觉吗?
答案是每次最优解不在菱形的顶点处。现在回答你没有问的问题。
是什么让套索系数更可能不为零
一个明显的因素是特征何时相关- 或者数据集中是否存在强多重相关。从视觉上看,这将具有在一个方向(在 2d 中)“展平”OLS 成本函数的效果,因此将通过迫使套索解决方案采用不太“直接”的路径朝向顶点之一来强烈影响套索解决方案的路径。请参阅这张图片,了解这两个特征非常相关的情况。

如果相关性较小,则 OLS 等高线图看起来会更圆,并且套索解决方案可能会更快地收敛到顶点。但这又取决于给定数据集的 OLS 成本函数的特定形状。在这种情况下,OLS 解决方案有一个与点成角度的谷。这就是图形位置概念的来源0,0
来源
这篇文章强烈基于我之前的文章- 对于任何感兴趣的人,您可以在我的博客和此页面上找到大部分代码和相关的数学推导