关于正则化方法的一些最重要的“早期论文”是什么?

机器算法验证 参考 套索 正则化 岭回归 弹性网
2022-03-30 10:50:39

在几个答案中,我看到 CrossValidated 用户建议 OP 在 Lasso、Ridge 和 Elastic Net 上找到早期论文。

对于后人来说,Lasso、Ridge 和 Elastic Net 的开创性作品是什么?

2个回答

由于您只是在寻找参考资料,因此这里是列表:

  1. 吉霍诺夫,安德烈·尼古拉耶维奇 (1943)。“Об устойчивости обратных задач” [论逆问题的稳定性]。Doklady Akademii Nauk SSSR。三十九(5):195-198。
  2. 安提霍诺夫 (1963)。“О решении некорректно поставленных задач и методе регуляризации”。Doklady Akademii Nauk SSSR。151: 501–504.. 翻译为“解决错误公式化问题和正则化方法”。苏联数学。4:1035-1038。
  3. Hoerl AE,1962,岭分析在回归问题中的应用,化学工程进展,1958,54-59。
  4. 阿瑟·E·霍尔;罗伯特·W·肯纳德 (1970)。“岭回归:非正交问题的有偏估计”。技术计量学。12(1):55-67。doi:10.2307/1267351。https://pdfs.semanticscholar.org/910e/d31ef5532dcbcf0bd01a980b1f79b9086fca.pdf
  5. 罗伯特·蒂布希拉尼 (1996)。“通过套索的回归收缩和选择”(PostScript)。皇家统计学会杂志,B 系列。58 (1): 267–288。先生 1379242 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf
  6. Zou, H. 和 Hastie, T. (2005)。通过弹性网络进行正则化和变量选择。皇家统计学会杂志,B 系列,67:第 301-320 页。https://web.stanford.edu/~hastie/Papers/B67.2%20%282005%29%20301-320%20Zou%20&%20Hastie.pdf

一篇我认为具有历史意义的论文首先证明了偏置估计器可以改善普通线性模型的估计:

  • Stein, C.,1956 年,1 月。多元正态分布均值的常用估计量不可接受。在第三届伯克利数理统计和概率研讨会论文集(第 1 卷,第 399 期,第 197-206 页)。

一些更现代和重要的处罚包括 SCAD 和 MCP:

  • Fan, J. 和 Li, R., 2001。通过非凹惩罚似然及其预言属性进行变量选择。美国统计协会杂志,96(456),pp.1348-1360。
  • 张,CH,2010 年。极小极大凹惩罚下的几乎无偏变量选择。统计年鉴,38(2),pp.894-942。

还有一些关于使用这些方法获得估计的非常好的算法:

  • Breheny, P. 和 Huang, J.,2011 年。非凸惩罚回归的坐标下降算法,以及在生物特征选择中的应用。应用统计年鉴,5(1),p.232。
  • Mazumder, R.、Friedman, JH 和 Hastie, T., 2011。稀疏网络:具有非凸惩罚的坐标下降。美国统计协会杂志,106(495),pp.1125-1138。

同样值得一看的是这篇关于 Dantzig 选择器的论文,它与 LASSO 密切相关,但是(我相信)它为统计估计器引入了预言不等式的想法,这是一个非常强大的想法

  • Candes, E. 和 Tao, T., 2007。Dantzig 选择器:当 p 远大于 n 时的统计估计。统计年鉴,第 2313-2351 页。