大号pLp有什么特别之处?p = 2p=2

机器算法验证 回归 正则化
2022-03-18 04:12:07

范数是唯一的(至少部分如此),因为位于非凸和凸之间的边界。范数是“最稀疏”的凸范数(对吗?)L1p=1L1

我知道欧几里得范数源于几何,当尺寸具有相同的单位时,它有一个清晰的解释。但我不明白为什么优先使用它而不是其他实数 : ? 为什么不使用完整的连续范围作为超参数?p=2p>1p=1.5p=π

我错过了什么?

4个回答

更数学的解释是空间,由所有收敛于 p 范数的级数组成,只有的希尔伯特,没有其他值。这意味着该空间是完整的,并且该空间上的范数可能由内积引起(想想中熟悉的点积),因此使用起来会更好一些。lpp=2Rn

这里有几个原因:

  1. 它以一种非常特殊的方式与内积相关:它是它自己的对偶范数(即它是“自对偶”)。
    这意味着,如果考虑单位球内的所有向量,它们与任何向量本身范数。不那么花哨的是,它满足的属性。没有其他规范以这种方式表现。2z2zx22=xxp

  2. 它有一个非常方便的平滑渐变: 你真的无法击败它!

    x f(x)22=2 f(x)f(x)

尽管可能有更多原因,但由于以下原因,AFAIK p=2 是首选:

  • 相似度/不相似度的度量:对于 p=2,欧几里得范数给出了两个向量之间相似度或不相似度的度量,然后可以进一步用于更好地了解数据。可以在此处找到有关此问题的更详细答案。
  • 正则化: L2 范数用于机器学习中的正则化,并且由于两个原因而被首选 - 1)它很容易区分 2)使用 L2 正则化,权重倾向于与权重成比例地减少。因此,与较小的权重相比,L2 正则化更多地惩罚较大的权重。

线性模型下的平方误差通常是首选,因为:

  • 与正交性的关系,对于一些被视为噪声(不相关性)的随机现象表现良好
  • 它是凸的和可微的,而不是L1
  • 当导数变成线性系统时,它会产生易于处理的优化算法

L1通常被认为是组合复杂的严格稀疏性(非零项的计数)的方便代理或凸松弛,例如,参见对于线性方程的大多数大型欠定系统,最小 -范数解也是最稀疏的解决方案1有些人倾向于使用 ,来强制执行更多的稀疏性,代价是“失去”凸性。p0<p<1

但是,计数度量对非零缩放不敏感。将向量乘以非零常数,非零项的数量将保持不变。因此,阶齐次的,而范数或准范数都是 阶齐次的。即使不知何故, as,这种差异对我来说似乎是一个差距。000p1p0p0

因此,与规范保持一致,一些人正在考虑(非凸)规范比率,例如 ,例如参见Euclid in a Taxicab 中的参考文献:Sparse Blind Deconvolution with Smoothed Regularization1/21/2