机器算法验证 - 随机矩阵的稀疏诱导正则化 - 吾爱随笔录

随机矩阵的稀疏诱导正则化

机器算法验证回归矩阵正常化正则化疏

2022-03-11 03:25:33

众所周知（例如在压缩感知领域）范数是“稀疏诱导的”，即如果我们最小化泛函（对于固定矩阵和向量）足够大、和的许多选择，我们很可能在结果中有许多完全为零的条目。 $L_1$ $A$ $\vec{b}$

f_{A, \vec{b}} (\vec{x}) = ‖ A \vec{x} - \vec{b} ‖_{2}^{2} + λ ‖ \vec{x} ‖_{1}

$f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1$

λ > 0

$\lambda>0$

A

$A$

\vec{b}

$\vec{b}$

λ

$\lambda$

\vec{x}

$\vec{x}$

但是如果我们最小化 $f_{A,\vec{b}}$ 的条件是 $\vec{x}$ 的条目是正的并且总和为 $1$ ，那么 $L_1$ 项没有任何影响（因为 $\|\vec{x}\|_1=1$ 法定货币）。在这种情况下是否有一个类似的 $L_1$ 类型正则化器可以鼓励生成的 $\vec{x}$ 是稀疏的？

4个回答

创建稀疏解的一般方法是通过具有未知方差的零均值正态先验的 MAP 估计。

p (x_{i} | σ_{i}^{2}) \sim N (0, σ_{i}^{2})

$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$

之前分配一个模式为零的先验，那么后验模式通常是稀疏的。通过采用指数混合分布从这种方法中产生。 $\sigma_i^2$ $L_1$

p (σ_{i}^{2} | λ) \sim E x p o (\frac{λ^{2}}{2})

$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$

然后你得到

\log [p (x_{i} | λ)] = - λ | x_{i} | + \log [\frac{λ}{2}]

$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$

一些替代方案是广义双帕累托、半柯西、倒置贝塔。从某种意义上说，这些比套索更好，因为它们不会缩小大值。事实上，我很确定广义双帕累托可以写成指数的混合。那就是我们写然后放置一个 gamma 先验。我们得到： $\lambda=\lambda_i$ $p(\lambda_i|\alpha\beta)$

p (x_{i} | α β) = \frac{α}{2 β} {(1 + \frac{| x_{i} |}{β})}^{- (α + 1)}

$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$

请注意，我已经包含了规范化常量，因为它们有助于选择好的全局参数。现在，如果我们应用范围限制，那么我们就会遇到一个更复杂的问题，因为我们需要对单纯形进行重新归一化。

稀疏诱导惩罚的另一个一般特征是它们在零处不可微。通常这是因为左右界限的符号相反。

这是基于 Nicolas Polson 和 James Scott 在方差均值混合表示上的出色工作，他们使用该表示来开发 TIRLS - 将最小二乘法大规模扩展到非常大的损失惩罚组合类别。

作为替代方案，您可以使用在单纯形上定义的先验，但在边际分布中的模式为零。一个例子是所有参数都在 0 和 1 之间的狄利克雷分布。隐含的惩罚如下所示：

- \sum_{i = 1}^{n - 1} (a_{i} - 1) \log (x_{i}) - (a_{n} - 1) \log (1 - \sum_{i = 1}^{n - 1} x_{i})

$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$

其中。但是，由于惩罚具有奇异性，因此在数值优化时需要小心。更稳健的估计过程是使用后验均值。尽管您失去了精确的稀疏性，但您将获得许多接近于零的后验均值。 $0<a_i<1$

两种选择：

使用惩罚。明显的缺点是这是非凸的，因此难以优化。 $L_0$ $\vec x$
重新参数化，并对新的（自然）参数向量使用惩罚，. 这将鼓励事件同样可能发生，除非有充分的理由不发生。 $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$ $\|\vec w\|$

问题的前提只是部分正确。虽然范数在约束下只是一个常数，但约束优化问题很可能有一个稀疏解。 $L_1$

但是，解不受选择的影响，因此要么存在稀疏解，要么不存在稀疏解。另一个问题是如何实际找到解决方案。当然，可以使用线性约束下的标准二次优化器，但不能立即使用流行的坐标下降算法。 $\lambda$

一个建议可能是仅在正约束下针对不同进行优化，然后将解重新归一化以具有 -范数 1。我相信，坐标下降算法应该很容易修改以计算正态下的解约束。 $\lambda$ $L_1$

我可以想出三种方法。

贝叶斯方法：引入零均值先验分布并使用 II 型似然估计参数和超参数。
改用作为正则化。但是，这是不可区分的。您可以使用高阶范数来近似它。 $\Vert\cdot\Vert_{\infty}$
使用。 $-\sum_{i=1}\log x_i$

其实第一种和第三种方法是一样的。

其它你可能感兴趣的问题

上一篇精通现代概率论的人的频率统计参考下一篇GAM 的假设