随机矩阵的稀疏诱导正则化

机器算法验证 回归 矩阵 正常化 正则化
2022-03-11 03:25:33

众所周知(例如在压缩感知领域)范数是“稀疏诱导的”,即如果我们最小化泛函(对于固定矩阵和向量足够大\lambda>0 ,对于A\vec{b}\lambda的许多选择,我们很可能在结果\vec{x}中有许多完全为零的条目L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

但是如果我们最小化fA,b的条件是x的条目是正的并且总和为1,那么L1项没有任何影响(因为x1=1法定货币)。在这种情况下是否有一个类似的L1类型正则化器可以鼓励生成的x是稀疏的?

4个回答

创建稀疏解的一般方法是通过具有未知方差的零均值正态先验的 MAP 估计。

p(xi|σi2)N(0,σi2)

之前分配一个模式为零的先验,那么后验模式通常是稀疏的。通过采用指数混合分布从这种方法中产生σi2L1

p(σi2|λ)Expo(λ22)

然后你得到

log[p(xi|λ)]=λ|xi|+log[λ2]

一些替代方案是广义双帕累托、半柯西、倒置贝塔。从某种意义上说,这些比套索更好,因为它们不会缩小大值。事实上,我很确定广义双帕累托可以写成指数的混合。那就是我们写然后放置一个 gamma 先验 我们得到:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

请注意,我已经包含了规范化常量,因为它们有助于选择好的全局参数。现在,如果我们应用范围限制,那么我们就会遇到一个更复杂的问题,因为我们需要对单纯形进行重新归一化。

稀疏诱导惩罚的另一个一般特征是它们在零处不可微。通常这是因为左右界限的符号相反。

这是基于 Nicolas Polson 和 James Scott 在方差均值混合表示上的出色工作,他们使用该表示来开发 TIRLS - 将最小二乘法大规模扩展到非常大的损失惩罚组合类别。

作为替代方案,您可以使用在单纯形上定义的先验,但在边际分布中的模式为零。一个例子是所有参数都在 0 和 1 之间的狄利克雷分布。隐含的惩罚如下所示:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

其中但是,由于惩罚具有奇异性,因此在数值优化时需要小心。更稳健的估计过程是使用后验均值。尽管您失去了精确的稀疏性,但您将获得许多接近于零的后验均值。0<ai<1

两种选择:

  1. 使用惩罚明显的缺点是这是非凸的,因此难以优化。L0x
  2. 重新参数化,并对新的(自然)参数向量使用惩罚,. 这将鼓励事件同样可能发生,除非有充分的理由不发生。xi=exp(wi)jexp(wj)w

问题的前提只是部分正确。虽然范数在约束下只是一个常数,但约束优化问题很可能有一个稀疏解。L1

但是,解不受选择的影响,因此要么存在稀疏解,要么不存在稀疏解。另一个问题是如何实际找到解决方案。当然,可以使用线性约束下的标准二次优化器,但不能立即使用流行的坐标下降算法。λ

一个建议可能是仅在正约束下针对不同进行优化,然后将解重新归一化以具有 -范数 1。我相信,坐标下降算法应该很容易修改以计算正态下的解约束。λL1

我可以想出三种方法。

  • 贝叶斯方法:引入零均值先验分布并使用 II 型似然估计参数和超参数。

  • 改用作为正则化。但是,这是不可区分的。您可以使用高阶范数来近似它。

  • 使用i=1logxi

其实第一种和第三种方法是一样的。