范数是唯一的(至少部分如此),因为位于非凸和凸之间的边界。范数是“最稀疏”的凸范数(对吗?)。
我知道欧几里得范数源于几何,当尺寸具有相同的单位时,它有一个清晰的解释。但我不明白为什么优先使用它而不是其他实数 :? ? 为什么不使用完整的连续范围作为超参数?
我错过了什么?
范数是唯一的(至少部分如此),因为位于非凸和凸之间的边界。范数是“最稀疏”的凸范数(对吗?)。
我知道欧几里得范数源于几何,当尺寸具有相同的单位时,它有一个清晰的解释。但我不明白为什么优先使用它而不是其他实数 :? ? 为什么不使用完整的连续范围作为超参数?
我错过了什么?
更数学的解释是空间,由所有收敛于 p 范数的级数组成,只有的希尔伯特,没有其他值。这意味着该空间是完整的,并且该空间上的范数可能由内积引起(想想中熟悉的点积),因此使用起来会更好一些。
这里有几个原因:
它以一种非常特殊的方式与内积相关:它是它自己的对偶范数(即它是“自对偶”)。
这意味着,如果考虑单位球内的所有向量,它们与任何向量本身的范数。不那么花哨的是,它满足的属性。没有其他规范以这种方式表现。
它有一个非常方便的平滑渐变: 你真的无法击败它!
尽管可能有更多原因,但由于以下原因,AFAIK p=2 是首选:
线性模型下的平方误差通常是首选,因为:
通常被认为是组合复杂的严格稀疏性(非零项的计数)的方便代理或凸松弛,例如,参见对于线性方程的大多数大型欠定系统,最小 -范数解也是最稀疏的解决方案。有些人倾向于使用 ,来强制执行更多的稀疏性,代价是“失去”凸性。
但是,计数度量对非零缩放不敏感。将向量乘以非零常数,非零项的数量将保持不变。因此,是阶齐次的,而范数或准范数都是 阶齐次的。即使不知何故, as,这种差异对我来说似乎是一个差距。
因此,与规范保持一致,一些人正在考虑(非凸)规范比率,例如 ,例如参见Euclid in a Taxicab 中的参考文献:Sparse Blind Deconvolution with Smoothed Regularization。