“正则化”一词的由来

机器算法验证 术语 正则化 历史 tikhonov-正则化
2022-02-03 05:25:43

当我向我的学生介绍概念时,我经常发现告诉他们术语的来源很有趣(例如,“回归”是一个有趣的术语)。我无法找到统计/机器学习中“正则化”一词的历史/背景。

那么,正则化一词的由来是什么

3个回答

与 Matthew Gunn 的贡献类似,这也不是一个真正的答案,而是一个似是而非的候选人。

我也是在Tikhonov 正则化的背景下第一次听说“正则化”这个术语,特别是在地球物理学中的(线性)逆问题的背景下。有趣的是,虽然我认为这可能是由于我的研究领域(即查看我的用户名),但显然Tikhonov实际上在该领域做了很多工作!

我的预感是现代的“正则化”方法很可能起源于 Tikhonov 的工作。基于这个推测,我在这里的贡献有两个部分。

第一部分本质上是(扶手椅)历史性的(基于仔细阅读论文标题和我自己先前的偏见!)。虽然 1963 年的论文解决错误公式化问题和正则化方法似乎是“正则化”一词的第一次使用,但我不太确定这是真的。这个参考在维基百科中被引用

安提霍诺夫 (1963)。“О решении некорректно поставленных задач и методе регуляризации”。Doklady Akademii Nauk SSSR。151:501-504。翻译为“错误公式化问题的解决方案和正则化方法”。苏联数学。4:1035-1038。

给人的印象是,Tikhonov 本人至少最初用俄语写了部分作品,因此“正则化”一词可能是后来的译者创造的。[更新:不,“регуляризации” = 正则化,参见 Cagdas Ozgenc 的评论。]此外,这项工作似乎是 Tikhonov 在更长时间内进行的连续研究的一部分。例如纸

吉霍诺夫,安德烈·尼古拉耶维奇 (1943)。“Об устойчивости обратных задач” [论逆问题的稳定性]。Doklady Akademii Nauk SSSR。三十九(5):195-198。

表明他至少在 20 年前就从事过同一个主题。然而,这个时间线表明,反问题的工作可能始于 1963 年,而不是 1943 年。

[更新:1943 年论文的翻译表明,这里的“规律性”术语是指“逆问题的稳定性(或逆映射的连续性)”。]

我贡献的第二部分是关于“正则化”最初可能在这种情况下的意图的假设。“规则”通常用作“平滑”的同义词,特别是在描述曲线和/或曲面几何时。在大多数地球物理学应用中,所需的解决方案是对空间分布场进行一些网格估计,并且使用 Tikhonov 正则化来施加平滑先验。

(Tikhonov 矩阵通常是离散空间导数算子,类似于 PDE 矩阵,与岭回归的单位矩阵。这是因为对于这些网格/前向模型,前向模型矩阵的零空间往往包括诸如“棋盘模式”之类的东西会污染结果,除非受到惩罚;类似于这个)。

更新:我在此处的回答中说明了这些问题


概括

  1. 我还投票支持 Tikhonov 作为发起人(可能在 1963 年左右)
  2. 最初的应用可能是地球物理反演建模,因此术语“正则化”可能是指使生成的地图* 更平滑,即“正则化”。

(*根据 1943 年论文的更新引述,这个措辞似乎是正确的......但原因是错误的!相关的“地图”不在网格和字段之间,u[x]=F[θ],但来自正向模型的映射θ=F1[u].)

这是部分答案,部分长评论。不完整的候选人名单:

  1. 吉霍诺夫,安德烈。“错误表述问题的解决方案和正则化方法。” 苏联数学。Dokl.. 卷。5. 1963. Tikhonov 以Tikhonov 正则化(也称为岭回归)而闻名。

  2. 物理学中有一个正则化的概念至少可以追溯到 1940 年代,但我看不出与 Tikhonov 正则化有任何联系?(虽然我不是物理学家。)

  3. 工程文本谈到河流的规范化(以改善导航)至少可以追溯到 1880 年代。

通过http://books.google.com进行搜索,直到 1970 年代,我才看到“正则化”一词的广泛使用,当时它开始一次又一次地出现在数学和物理书籍的上下文中。

最简单地说,该术语在科学术语的自然演变中幸存下来,因为它抓住了该技术的核心目标:从一堆解决方案到一个不适定问题,它选择有规律的解决方案,即

按规定

(免费词典的定义

例如,这也用于设计木工中的光滑表面的通用语言。类似地,如果规则是最小化重构信号的不平滑位的总变化 (TV)(例如,通过梯度的总能量测量),则回归问题的解决方案看起来会更规则。

这个术语变得广泛传播,因为它非常通用:任何人都可以定义它的一个规则,从 TV 到 L1-norm 度量,或者通过使用0伪规范!因此,该规则可能在贝叶斯统计中发挥与先验相似的作用。