在 p = 2 的情况下 LASSO 的图形直觉

机器算法验证 回归 机器学习 优化 套索 正则化
2022-03-23 19:07:17

由于这个问题已经在这里问过了,我希望它不是重复的,因为它没有得到回答。在我的问题中,我将使用另一个图表来更清楚地说明:

在此处输入图像描述

左图描述了套索问题。我的问题是关于它更有可能与角(在本例中为)或受约束区域的一侧相交的情况。βj=0

我或多或少地发现了两个依赖项:

  1. 如图所示,如果我们增加约束区域的预算或减小调整参数,菱形会变得更大。它更有可能与边相交,就像与角相交一样。λ

  2. 交点取决于 OLS 解决方案的“图形位置”。但我无法向自己解释依赖是如何运作的。的情况下,当 LASSO不会将系数设置为零时,你们中的一些人能给我一些图形直觉吗?p=2

2个回答

回想一下,Lasso 最小化问题可以被视为两项的最小化:要回答您的问题:OLS+L1

交点取决于 OLS 解决方案的“图形位置”。但我无法向自己解释依赖是如何运作的。

  • 约束优化的解决方案在于两个函数的轮廓之间的交点,并且该交点作为的函数而变化。对于,解决方案是 MLE(像往常一样),对于,解决方案在处。λλ=0λ=[0,0]
  • 由于在菱形的顶点,一个或多个变量的值为 0,因此一个或多个系数的值恰好等于 0 的概率非零。

正如您从图片中看到的那样,一定一些值,其解决方案不会发生在菱形的顶点处。解决方案不能简单地从 OLS 最小值(当时)跳转到菱形的顶点。λλ=0

这是很多人的误解。套索不会神奇地将系数设置为零!它优化了 lasso 成本函数,这个优化问题的特殊结构使得解决方案很可能位于菱形的顶点。

在 p=2 的情况下,当 LASSO 不会将系数设置为零时,你们中的一些人能给我一些图形直觉吗?

答案是每次最优解不在菱形的顶点处。现在回答你没有问的问题。

是什么让套索系数更可能不为零

一个明显的因素是特征何时相关- 或者数据集中是否存在强多重相关。从视觉上看,这将具有在一个方向(在 2d 中)“展平”OLS 成本函数的效果,因此将通过迫使套索解决方案采用不太“直接”的路径朝向顶点之一来强烈影响套索解决方案的路径。请参阅这张图片,了解这两个特征非常相关的情况。

ridge_lasso_paths

如果相关性较小,则 OLS 等高线图看起来会更圆,并且套索解决方案可能会更快地收敛到顶点。但这又取决于给定数据集的 OLS 成本函数的特定形状。在这种情况下,OLS 解决方案有一个与点成角度的谷。这就是图形位置概念的来源0,0

来源

这篇文章强烈基于我之前的文章- 对于任何感兴趣的人,您可以在我的博客和此页面上找到大部分代码和相关的数学推导

椭圆是损失的​​等值轮廓,蓝色形状是惩罚区域。通过对偶,当等高线与蓝色形状的边界相交时出现最佳值。

您所展示的情况确实可以消除 Lasso 稀疏性 - 椭圆的轴垂直于钻石的表面。这是可能的,但可能性不大。在更高的维度上,这种可能性更小。对于 2D 情况,很容易看出,当轴不垂直于钻石表面时,交点将在 x 或 y 轴上。