是否有一个典型的例子来说明岭何时胜过套索?

机器算法验证 套索 正则化 岭回归
2022-03-18 15:51:28

有人可以给我一个例子,说明 ridge 何时会执行套索吗?

在大多数情况下套索不会做得更好吗?如果一个回归器的系数很大,这意味着该回归器是一个很好的预测器,所以如果我们使用岭,我们会更多地惩罚这个系数。那不是很糟糕吗?Lasso 将更多地惩罚较小的系数而减少较大的系数,因为 ridge 平方损失函数中的系数(L2 范数),而 lasso 只是 L1 范数。

我们想要更少的系数来防止过度拟合,那么套索不是总是更好吗?

如果有 2 个好的回归器和 15 个坏的回归器,Lasso 显然会更好,是否有一个典型的例子说明 ridge 何时会优于 lasso?

2个回答

两种模型都使用惩罚函数来惩罚包含非零系数。LASSO 回归以与系数的绝对大小成比例的方式进行惩罚,而岭回归以与系数的平方成比例的方式进行惩罚。两种模型都不惩罚系数设置为零的似然函数中的输入。对于系数非零的似然函数的输入,LASSO 回归对接近零的值的惩罚更重,而岭回归对远离零的值的惩罚更重。(在您的问题中,您似乎错误地认为平方值总是大于绝对值。事实并非如此。对于幅度小于 1 的输入值,绝对值大于平方。)

直觉告诉我们,相对于回归中的噪声,在真正的非零系数接近于零的情况下,岭回归往往会优于 LASSO 回归。在这种情况下,岭回归对这些值的惩罚较少,因此更有可能为这些系数估计非零值。LASSO 回归对这些系数的惩罚更大,因此更有可能错误地将它们估计为零。基于这种直觉,我建议您将这些模型与回归生成的一些数据进行比较,这些数据的系数相对于回归中的噪声较小。如果您要对这样的案例进行模拟研究,您应该会发现在这些案例中岭回归往往优于 LASSO。

Ridge 最初是为相关变量设计的,这就是它的最佳选择。

考虑通过考试来确定学位。(据说是测量能力)

您认为哪个更可靠:取所有考试的平均值还是选择与能力最相关的一项考试(如果有的话)?对不同考试进行平均消除(独立噪音——你一天睡得不好等)

Ridge 将取这些相关输入的平均值(即单独的考试),而 lasso 将只选择一个。