我多次听说深度学习的基本/开放问题之一是缺乏“一般理论”,因为实际上,我们不知道为什么深度学习如此有效。甚至关于深度学习的维基百科页面也有类似的评论。这些陈述是否可信并代表了该领域的现状?
深度学习真的缺乏基础理论吗?
有一篇论文叫为什么深度学习效果这么好?.
然而,深度学习为何如此有效仍不完全清楚。与手工制作并在分析上完全理解的 GOFAI(“优秀的老式 AI”)算法相比,许多使用人工神经网络的算法只能在启发式水平上理解,我们凭经验知道某些训练协议使用大型数据集将产生出色的性能。这让人想起人类大脑的情况:我们知道,如果我们按照特定的课程训练一个孩子,她会学习到某些技能——但我们对她的大脑是如何做到这一点缺乏深入的了解。
情况非常如此。深度学习模型甚至是浅层的模型,例如堆叠自动编码器和神经网络,都没有被完全理解。人们努力了解这种复杂变量密集型函数的优化过程发生了什么。但是,这是一项艰巨的任务。
研究人员用来发现深度学习如何工作的一种方法是使用生成模型。首先,我们训练一个学习算法并在要求它生成示例的同时系统地限制它。通过观察生成的示例,我们将能够在更重要的层面上推断算法中发生了什么。这很像在神经科学中使用抑制剂来了解大脑的不同组成部分是用来做什么的。例如,我们知道视觉皮层就在它所在的位置,因为如果我们损坏它,你就会失明。
这可能取决于人们所说的“基础理论”是什么意思,但深度学习中不乏严谨的定量理论,其中一些非常普遍,尽管有相反的说法。
一个很好的例子是围绕基于能量的学习方法的工作。参见 Neal & Hinton 关于变分推理和自由能的工作:http ://www.cs.toronto.edu/~fritz/absps/emk.pdf
Yann LeCun 及其同事将能量最小化作为“许多学习模型的通用理论框架”的本指南:http: //yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Scellier 和 Bengio 的基于能量的模型的一般框架: https ://arxiv.org/pdf/1602.05179.pdf
还有 Hinton 和 Sejnowski 的早期工作分析表明,特定的 Hopfield 启发网络 + 无监督学习算法可以逼近贝叶斯最优推理:https ://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf
也有许多论文将深度学习与理论神经科学联系起来,如下所示,这表明反向传播的效果可以在生物学上似是而非的神经架构中实现: https ://arxiv.org/pdf/1411.0247.pdf
当然,有许多悬而未决的问题,没有单一的、无可争议的统一理论,但几乎任何领域都可以这样说。
你的维基百科引用是有问题的,因为深度学习已经很发达了。事实上,[citation needed]
维基百科页面上有一个。
查看https://github.com/terryum/awesome-deep-learning-papers。链接里大概有 100 篇论文,你还觉得深度学习缺乏“一般理论”吗?
是的。深度学习很难理解,因为它是一个非常复杂的模型。但这并不意味着我们没有理论。
也许lime
包装和它的论文:“我为什么要相信你?”:解释任何分类器的预测会对你有所帮助。该论文建议我们应该能够用一个更简单的模型在本地逼近一个复杂的模型(包括深度学习)。