从纯数学角度研究神经网络的最佳书籍是什么?

机器算法验证 神经网络 参考
2022-03-06 13:25:36

我正在寻找一本涉及神经网络数学方面的书,从矩阵形式的多层感知器的简单前向传递或激活函数的微分,到 CNN 或 RNN 中的反向传播(提及一些主题)。

你知道有什么书深入探讨了这个理论吗?我看过一些(例如 Bishop 的 Pattern Recognition and Machine Learning 或 Goodfellow、Bengio 和 Courville 的 Deep Learning),但仍然没有找到一个严格的(如果有练习会更好)。你有什么建议吗?

2个回答

很少有关于神经网络的非常严谨的书籍的一个很好的原因是,除了通用逼近定理(其与学习问题的相关性被大大高估了)之外,关于 NN 的数学上严格的结果很少,而且大多数是具有消极性质。因此,可以理解的是,有人会决定写一本包含少量证明的数学书,其中大部分都告诉你你不能用你的花哨模型做什么。事实上, Mehryar Mohri、Afshin Rostamizadeh 和 Ameet Talwalkar 合着的《机器学习基础》这本书在严谨性方面是首屈一指的,由于缺乏严谨的结果,它明确选择不涵盖神经网络:

https://www.amazon.com/Foundations-Machine-Learning-Adaptive-Computation/dp/0262039400/

无论如何,一些数学证明(包括反向传播算法计算损失函数相对于权重的梯度的证明)可以在理解机器学习:从理论到算法中找到,作者 Shai Shalev-Shwartz 和 Shai Ben-David :

https://www.amazon.com/Understanding-Machine-Learning-Theory-Algorithms-ebook/dp/B00J8LQU8I

Yoav Goldberg 和 Graeme Hirst的《自然语言处理中的神经网络方法》也相当严谨,但对你来说可能还不够:

https://www.amazon.com/Language-Processing-Synthesis-Lectures-Technologies/dp/1627052984

最后, Gilbert Strang 的线性代数和从数据中学习涵盖了深度学习数学的一部分,虽然不是全部,但绝对是基石,即线性代数:

https://www.amazon.com/-Algebra-Learning-Gilbert-Strang/dp/0692196382


编辑:这最近随着深度学习理论的最新进展而改变,例如 NTK 理论、测量结果的新集中、Rademacher 复杂性和覆盖数字的新结果等。Matus Telgarsky 写了一本关于该主题的优秀在线书籍:

https://mjt.cs.illinois.edu/dlt/

我真的很喜欢Goodfellow、Bengio 和 Courville 的深度学习其参考书目中列出的论文在大多数数学方面都得到了发展和深入。

在这篇文章中,您可以从更严格的角度找到一对建议。

但是如果你真的想对基础更严谨,我建议你阅读MacKay 的Information Theory, Inference and Learning Algorithms ,作者的网站上有免费的官方电子版