我正在寻找一本涉及神经网络数学方面的书,从矩阵形式的多层感知器的简单前向传递或激活函数的微分,到 CNN 或 RNN 中的反向传播(提及一些主题)。
你知道有什么书深入探讨了这个理论吗?我看过一些(例如 Bishop 的 Pattern Recognition and Machine Learning 或 Goodfellow、Bengio 和 Courville 的 Deep Learning),但仍然没有找到一个严格的(如果有练习会更好)。你有什么建议吗?
我正在寻找一本涉及神经网络数学方面的书,从矩阵形式的多层感知器的简单前向传递或激活函数的微分,到 CNN 或 RNN 中的反向传播(提及一些主题)。
你知道有什么书深入探讨了这个理论吗?我看过一些(例如 Bishop 的 Pattern Recognition and Machine Learning 或 Goodfellow、Bengio 和 Courville 的 Deep Learning),但仍然没有找到一个严格的(如果有练习会更好)。你有什么建议吗?
很少有关于神经网络的非常严谨的书籍的一个很好的原因是,除了通用逼近定理(其与学习问题的相关性被大大高估了)之外,关于 NN 的数学上严格的结果很少,而且大多数是具有消极性质。因此,可以理解的是,有人会决定写一本包含少量证明的数学书,其中大部分都告诉你你不能用你的花哨模型做什么。事实上, Mehryar Mohri、Afshin Rostamizadeh 和 Ameet Talwalkar 合着的《机器学习基础》这本书在严谨性方面是首屈一指的,由于缺乏严谨的结果,它明确选择不涵盖神经网络:
https://www.amazon.com/Foundations-Machine-Learning-Adaptive-Computation/dp/0262039400/
无论如何,一些数学证明(包括反向传播算法计算损失函数相对于权重的梯度的证明)可以在理解机器学习:从理论到算法中找到,作者 Shai Shalev-Shwartz 和 Shai Ben-David :
https://www.amazon.com/Understanding-Machine-Learning-Theory-Algorithms-ebook/dp/B00J8LQU8I
Yoav Goldberg 和 Graeme Hirst的《自然语言处理中的神经网络方法》也相当严谨,但对你来说可能还不够:
https://www.amazon.com/Language-Processing-Synthesis-Lectures-Technologies/dp/1627052984
最后, Gilbert Strang 的线性代数和从数据中学习涵盖了深度学习数学的一部分,虽然不是全部,但绝对是基石,即线性代数:
https://www.amazon.com/-Algebra-Learning-Gilbert-Strang/dp/0692196382
编辑:这最近随着深度学习理论的最新进展而改变,例如 NTK 理论、测量结果的新集中、Rademacher 复杂性和覆盖数字的新结果等。Matus Telgarsky 写了一本关于该主题的优秀在线书籍: