有没有论文总结了深度学习的数学基础?

机器算法验证 神经网络 深度学习 参考
2022-04-11 19:07:18

有没有论文总结了深度学习的数学基础?

现在,我正在研究深度学习的数学背景。然而,不幸的是,我不知道神经网络理论在数学上得到了何种程度的证明。因此,我想要一些基于数学基础回顾神经网络理论历史流的论文,特别是在学习算法(收敛性)方面,以及NN的泛化能力和NN的架构(为什么深度好?)如果你知道,请让我知道论文的名称。

让我写下我读过的一些论文供你参考。

  • Cybenko, G. (1989)。通过 sigmoidal 函数的叠加来近似。控制、信号和系统的数学,2(4),303-314。
  • Hornik, K., Stinchcombe, M., \& White, H. (1989)。多层前馈网络是通用逼近器。神经网络,2(5),359-366。
  • KI 船桥 (1989)。关于神经网络连续映射的近似实现。神经网络,2(3),183-192。
  • Leshno, M., Lin, VY, Pinkus, A., \& Schocken, S. (1993)。具有非多项式激活函数的多层前馈网络可以逼近任何函数。神经网络,6(6),861-867。
  • Mhaskar, HN, \& Micchelli, CA (1992)。通过 S 形和径向基函数的叠加来近似。应用数学进展,13(3),350-373。
  • Delalleau, O., \& Bengio, Y. (2011)。浅层与深层和积网络。在神经信息处理系统的进展中(第 666-674 页)。Telgarsky, M. (2016)。神经网络深度的好处。arXiv 预印本 arXiv:1602.04485。
  • 巴伦,AR (1993)。sigmoidal 函数叠加的通用逼近界。IEEE 信息论汇刊,39(3),930-945。
  • Mhaskar,HN(1996 年)。用于平滑和解析函数的最佳逼近的神经网络。神经计算,8(1),164-177。
  • Lee, H., Ge, R., Ma, T., Risteski, A., \& Arora, S. (2017)。关于神经网络表达分布的能力。arXiv 预印本 arXiv:1702.07028。
  • Bartlett, PL, \& Maass, W. (2003)。神经网络的 Vapnik-Chervonenkis 维度。大脑理论和神经网络手册,1188-1192。
  • 川口,K.(2016 年)。没有较差的局部最小值的深度学习。在神经信息处理系统的进展中(第 586-594 页)。
  • Kingma, DP, \& Ba, J. (2014)。Adam:一种随机优化方法。arXiv 预印本 arXiv:1412.6980。
  • Duchi, J., Hazan, E., \& Singer, Y. (2011)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(七月),2121-2159。
  • Tieleman, T., \& Hinton, G. (2012)。讲座 6.5-RMSProp,COURSERA:用于机器学习的神经网络。多伦多大学,技术报告。
  • Zeiler,医学博士(2012 年)。ADADELTA:一种自适应学习率方法。arXiv 预印本 arXiv:1212.5701。
  • Yun, C., Sra, S., \& Jadbabaie, A. (2017)。深度神经网络的全局最优条件。arXiv 预印本 arXiv:1707.02444。
  • Zeng, J., Lau, TTK, Lin, S., \& Yao, Y. (2018)。深度学习的块坐标下降:统一收敛保证。arXiv 预印本 arXiv:1803.00225。
  • 魏南,E.(2017)。通过动态系统进行机器学习的提议。数学与统计通讯,5(1),1-11。Li, Q.、Chen, L.、Tai, C.、\& Weinan, E. (2017)。基于最大原理的深度学习算法。机器学习研究杂志,18(1),5998-6026。
  • Zhang, C.、Bengio, S.、Hardt, M.、Recht, B.、\& Vinyals, O. (2016)。理解深度学习需要重新思考泛化。arXiv 预印本 arXiv:1611.03530。
  • Kaelbling, K., Kaelbling, LP, \& Bengio, Y. (2017)。深度学习中的泛化。arXiv 预印本 arXiv:1710.05468。
1个回答

据我所知,没有一篇论文可以总结经过验证的数学结果。对于一般概述,我建议改为使用教科书,它们更有可能为您提供广泛的背景概述。两个突出的例子是:

  • Bishop, Christopher M.用于模式识别的神经网络牛津大学出版社,1995 年。
  • Goodfellow、Ian、Yoshua Bengio、Aaron Courville 和 Yoshua Bengio。深度学习卷。1. 剑桥:麻省理工学院出版社,2016 年。

与您引用的一些论文的水平相比,这些是相当介绍性的书籍。如果您想深入了解 PAC 学习理论(如果您打算研究 NN 模型的可学习性,您确实应该这样做),请阅读以下两篇:

  • Mehryar Mohri、Afshin Rostamizadeh 和 Ameet Talwalkar,《机器学习基础》,麻省理工学院出版社,2012 年(但请等待 2018 年版,它将在圣诞节到期,并且有一些相当大的改进)
  • Shai Shalev-Shwartz,Shai Ben-David,理解机器学习:从理论到算法,剑桥大学出版社,2014

此外,如果您对神经网络的历史发展流感兴趣,请阅读:

  • Schmidhuber, J.,2015 年。神经网络中的深度学习:概述。神经网络,61,pp.85-117。

深度学习中数学理论和证明的棘手之处在于,许多重要的结果没有实际意义。例如,超级著名的通用逼近定理说,具有单个隐藏层的神经网络可以将任何函数逼近到任意精度。如果一个就足够了,你为什么还要关心使用更多的层呢?因为经验证明它是有效的。此外,通用逼近定理只告诉我们存在这样的网络,但它并没有告诉我们真正感兴趣的是什么,即

  • 这种网络从训练样本中的可学习性(信息论问题或 PAC 学习问题,取决于你如何投射它)。
  • 存在可以在多项式时间内学习正确网络(其权重)的算法(计算问题的理论)。

例如,我们有一个用于多项式的通用逼近定理和一个用于具有平方指数核的高斯过程的通用逼近定理。但是,我们是否赢得了多项式或 GP 的 ImageNet/Kaggle 比赛?我们当然不会。

另一个例子是收敛:使用一阶方法(梯度下降等)训练神经网络保证1收敛到局部最小值,仅此而已。由于它是非凸优化问题,我们根本无法证明它更有用(尽管正在对局部最小值与全局最小值的距离进行一些研究 [1,2])。自然,更多的注意力放在实证研究上,研究我们可以什么,即使我们不能证明2

最后,我不知道有哪些作品证明了对网络架构或它们的泛化能力非常重要(老实说,我不确定你在这里寻找什么样的证明;也许如果你在评论中回复或在你的问题,我可以在这里展开。)


[1]: Choromanska, A.、Henaff, M.、Mathieu, M.、Arous, GB 和 LeCun, Y.,2015 年 2 月。多层网络的损失面。在人工智能和统计中(第 192-204 页)。

[2]:Soudry, D. 和 Carmon, Y.,2016 年。没有糟糕的局部最小值:多层神经网络的数据独立训练误差保证。arXiv 预印本 arXiv:1605.08361。

1几乎可以肯定;有关一些病态的反例,请参阅围绕此答案的讨论。

2这不一定是坏事,也不意味着深度学习是炼金术:证明和严谨的数学理论通常遵循经验证据和工程结果。