有没有论文总结了深度学习的数学基础?
现在,我正在研究深度学习的数学背景。然而,不幸的是,我不知道神经网络理论在数学上得到了何种程度的证明。因此,我想要一些基于数学基础回顾神经网络理论历史流的论文,特别是在学习算法(收敛性)方面,以及NN的泛化能力和NN的架构(为什么深度好?)如果你知道,请让我知道论文的名称。
让我写下我读过的一些论文供你参考。
- Cybenko, G. (1989)。通过 sigmoidal 函数的叠加来近似。控制、信号和系统的数学,2(4),303-314。
- Hornik, K., Stinchcombe, M., \& White, H. (1989)。多层前馈网络是通用逼近器。神经网络,2(5),359-366。
- KI 船桥 (1989)。关于神经网络连续映射的近似实现。神经网络,2(3),183-192。
- Leshno, M., Lin, VY, Pinkus, A., \& Schocken, S. (1993)。具有非多项式激活函数的多层前馈网络可以逼近任何函数。神经网络,6(6),861-867。
- Mhaskar, HN, \& Micchelli, CA (1992)。通过 S 形和径向基函数的叠加来近似。应用数学进展,13(3),350-373。
- Delalleau, O., \& Bengio, Y. (2011)。浅层与深层和积网络。在神经信息处理系统的进展中(第 666-674 页)。Telgarsky, M. (2016)。神经网络深度的好处。arXiv 预印本 arXiv:1602.04485。
- 巴伦,AR (1993)。sigmoidal 函数叠加的通用逼近界。IEEE 信息论汇刊,39(3),930-945。
- Mhaskar,HN(1996 年)。用于平滑和解析函数的最佳逼近的神经网络。神经计算,8(1),164-177。
- Lee, H., Ge, R., Ma, T., Risteski, A., \& Arora, S. (2017)。关于神经网络表达分布的能力。arXiv 预印本 arXiv:1702.07028。
- Bartlett, PL, \& Maass, W. (2003)。神经网络的 Vapnik-Chervonenkis 维度。大脑理论和神经网络手册,1188-1192。
- 川口,K.(2016 年)。没有较差的局部最小值的深度学习。在神经信息处理系统的进展中(第 586-594 页)。
- Kingma, DP, \& Ba, J. (2014)。Adam:一种随机优化方法。arXiv 预印本 arXiv:1412.6980。
- Duchi, J., Hazan, E., \& Singer, Y. (2011)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(七月),2121-2159。
- Tieleman, T., \& Hinton, G. (2012)。讲座 6.5-RMSProp,COURSERA:用于机器学习的神经网络。多伦多大学,技术报告。
- Zeiler,医学博士(2012 年)。ADADELTA:一种自适应学习率方法。arXiv 预印本 arXiv:1212.5701。
- Yun, C., Sra, S., \& Jadbabaie, A. (2017)。深度神经网络的全局最优条件。arXiv 预印本 arXiv:1707.02444。
- Zeng, J., Lau, TTK, Lin, S., \& Yao, Y. (2018)。深度学习的块坐标下降:统一收敛保证。arXiv 预印本 arXiv:1803.00225。
- 魏南,E.(2017)。通过动态系统进行机器学习的提议。数学与统计通讯,5(1),1-11。Li, Q.、Chen, L.、Tai, C.、\& Weinan, E. (2017)。基于最大原理的深度学习算法。机器学习研究杂志,18(1),5998-6026。
- Zhang, C.、Bengio, S.、Hardt, M.、Recht, B.、\& Vinyals, O. (2016)。理解深度学习需要重新思考泛化。arXiv 预印本 arXiv:1611.03530。
- Kaelbling, K., Kaelbling, LP, \& Bengio, Y. (2017)。深度学习中的泛化。arXiv 预印本 arXiv:1710.05468。