众所周知(例如在压缩感知领域)范数是“稀疏诱导的”,即如果我们最小化泛函(对于固定矩阵和向量)足够大\lambda>0 ,对于A、\vec{b}和\lambda的许多选择,我们很可能在结果\vec{x}中有许多完全为零的条目。
但是如果我们最小化的条件是的条目是正的并且总和为,那么项没有任何影响(因为法定货币)。在这种情况下是否有一个类似的类型正则化器可以鼓励生成的是稀疏的?
众所周知(例如在压缩感知领域)范数是“稀疏诱导的”,即如果我们最小化泛函(对于固定矩阵和向量)足够大\lambda>0 ,对于A、\vec{b}和\lambda的许多选择,我们很可能在结果\vec{x}中有许多完全为零的条目。
但是如果我们最小化的条件是的条目是正的并且总和为,那么项没有任何影响(因为法定货币)。在这种情况下是否有一个类似的类型正则化器可以鼓励生成的是稀疏的?
创建稀疏解的一般方法是通过具有未知方差的零均值正态先验的 MAP 估计。
之前分配一个模式为零的先验,那么后验模式通常是稀疏的。通过采用指数混合分布从这种方法中产生。
然后你得到
一些替代方案是广义双帕累托、半柯西、倒置贝塔。从某种意义上说,这些比套索更好,因为它们不会缩小大值。事实上,我很确定广义双帕累托可以写成指数的混合。那就是我们写然后放置一个 gamma 先验 。我们得到:
请注意,我已经包含了规范化常量,因为它们有助于选择好的全局参数。现在,如果我们应用范围限制,那么我们就会遇到一个更复杂的问题,因为我们需要对单纯形进行重新归一化。
稀疏诱导惩罚的另一个一般特征是它们在零处不可微。通常这是因为左右界限的符号相反。
这是基于 Nicolas Polson 和 James Scott 在方差均值混合表示上的出色工作,他们使用该表示来开发 TIRLS - 将最小二乘法大规模扩展到非常大的损失惩罚组合类别。
作为替代方案,您可以使用在单纯形上定义的先验,但在边际分布中的模式为零。一个例子是所有参数都在 0 和 1 之间的狄利克雷分布。隐含的惩罚如下所示:
其中。但是,由于惩罚具有奇异性,因此在数值优化时需要小心。更稳健的估计过程是使用后验均值。尽管您失去了精确的稀疏性,但您将获得许多接近于零的后验均值。
两种选择:
问题的前提只是部分正确。虽然范数在约束下只是一个常数,但约束优化问题很可能有一个稀疏解。
但是,解不受选择的影响,因此要么存在稀疏解,要么不存在稀疏解。另一个问题是如何实际找到解决方案。当然,可以使用线性约束下的标准二次优化器,但不能立即使用流行的坐标下降算法。
一个建议可能是仅在正约束下针对不同进行优化,然后将解重新归一化以具有 -范数 1。我相信,坐标下降算法应该很容易修改以计算正态下的解约束。
我可以想出三种方法。
贝叶斯方法:引入零均值先验分布并使用 II 型似然估计参数和超参数。
改用作为正则化。但是,这是不可区分的。您可以使用高阶范数来近似它。
使用。
其实第一种和第三种方法是一样的。