稀疏线性回归 0 范数和 1 范数

机器算法验证 回归 特征选择 正则化
2022-03-22 13:31:31

我们有回应YRn和预测器X=(x1,x2,,xm)TRn×m

我们要解决的问题是

argminkRm(YXk22+λk0)k0

然而,它是 NP 难的,所以我们解决

argminkRm(YXk22+λk1)k1

在这篇论文 “Learning physical descriptors for materials science bycompressed sense”中,据说

对于高度相关的特征,λk1可能不是 \lambda \Vert k \Vert_0 的良好λk0

我的问题:

\的非零分量的数量进行了限制但是,当特征相关时找到的优势是什么?λk0λk1kkλk0

此外,是否有一个直观的例子可以证明我上面引用的观点?

1个回答
  1. 如果特征是相关的,你应该使用弹性网络而不是套索。
  2. 粗略地说,如果两个特征是相关的,如果在损失函数上有更好的奖励,lasso 会选择特征而不是,这意味着绝对值更小回归系数与预测误差的良好降低ij|βi|||yXβ||2
  3. 另一方面,范数的惩罚将选择特征而不是如果它只导致预测误差的良好降低,因为系数的大小无关紧要,只要它不为零(记住, )。l0ij||β||0=#{βk0}
  4. 现在,我的直觉是,如果特征相关 - 和本文中对定理 2 的证明应该说明为什么确实如此。不过,这与您引用的论文的陈述和示例相矛盾。l1l0