是否存在任何(深度)神经网络显然无法胜过任何其他方法的监督学习问题?

机器算法验证 机器学习 支持向量机 内核技巧 监督学习
2022-01-17 17:13:36

我看到人们在 SVM 和内核上付出了很多努力,作为机器学习的初学者,它们看起来很有趣。但是,如果我们期望在(深度)神经网络方面几乎总是能找到表现出色的解决方案,那么在这个时代尝试其他方法的意义是什么?

这是我对这个主题的限制。

  1. 我们只考虑监督学习;回归和分类。
  2. 结果的可读性不计算在内;只有监督学习问题的准确性才重要。
  3. 不考虑计算成本。
  4. 我并不是说任何其他方法都没有用。
4个回答

这是为什么有人可能理性地偏爱非 DNN 方法的一个理论和两个实际原因。

  1. Wolpert 和 Macready的无免费午餐定理

    我们将相关结果称为 NFL 定理,因为它们表明,如果算法在某一类问题上表现良好,那么它必然会为所有剩余问题的性能下降而付出代价。

    换句话说,没有任何一种算法可以统治所有这些。你必须进行基准测试。

    这里明显的反驳是你通常不关心所有可能的问题,而深度学习似乎在人们关心的几类问题上表现良好例如,对象识别),因此它是一个合理的首选/唯一选择用于这些领域中的其他应用程序。

  2. 许多这些非常深的网络需要大量数据和大量计算才能适应。如果你有(比如说)500 个例子,一个 20 层的网络永远不会学得很好,虽然它可能适合一个更简单的模型。有许多令人吃惊的问题,收集大量数据是不可行的。另一方面,人们可能会尝试学习解决相关问题(有更多数据可用),使用诸如迁移学习之类的东西来使其适应特定的低数据可用性任务。

  3. 深度神经网络也可能有不寻常的故障模式。有一些论文表明,人类几乎无法察觉的变化会导致网络从正确分类图像转变为自信地错误分类。(参见此处和Szegedy等人的随附论文。)其他方法可能更强大:针对 SVM 的中毒攻击(例如,Biggio、Nelson 和 Laskov 的这种攻击),但这些发生在火车上,而不是测试时间。在相反的极端,最近邻算法有已知的(但不是很好的)性能界限。在某些情况下,您可能会因较低的整体性能和较少的灾难机会而感到高兴。

Geoff Hinton 的讲座播放列表(来自他的 Coursera 神经网络课程)的某个地方,有一段他谈到了两类问题:

  1. 噪声是关键特征的问题,
  2. 信号是关键特征的问题。

我记得这样的解释是,虽然神经网络在后一个领域蓬勃发展,但传统的统计方法通常更适合前者。分析世界上实际事物的高分辨率数码照片,这是深度卷积网络擅长的地方,显然构成了后者。

另一方面,当噪声是主要特征时,例如,在有 50 个病例和 50 个对照的医学病例对照研究中,传统的统计方法可能更适合该问题。

如果有人找到该视频,请发表评论,我会更新。

两个线性完善的相关变量。具有 100 万个隐藏层和 2 万亿个中子的深度网络能否击败简单的线性回归?

已编辑

根据我的经验,样本收集比计算更昂贵。我的意思是,我们可以租用一些 Amazon 实例,进行深度学习培训,然后在几天后回来。我所在领域的成本约为 200 美元。成本是最小的。我的同事一天挣的比这还多。

样本采集通常需要领域知识和专业设备。深度学习只适用于廉价且易于访问的数据集的问题,例如自然语言处理、图像处理以及任何你可以从互联网上刮下来的东西。

老实说,深度学习方法不可能胜过核方法。为什么 ?这很简单,因为任何网络,无论是深的还是浅的,都可以用内核来描述。因此,内核可以重现来自深度学习的任何结果。但是,内核方法可以访问比深度学习方法更强大的方法。事实上,今天,内核机器获得的结果远远好于任何深度学习方法。

编辑:当我收到有关此答案的警告时,请让我详细说明。我参考了这篇论文:https ://papers.ssrn.com/sol3/papers.cfm?abstract_id=3769804 。

  1. 每个神经网络 (NN) 都可以输入到内核机器中,这在十多年前就为人所知。例如,在我们的内核机器中,我们可以输入任何 NN,它有一个接口,参见第 2.3.7 节。
  2. 内核机器可以访问除 NN 之外的其他方法。参见例如第 3 节,它允许任何 PDE 方法。
  3. 我们对这两种方法进行了基准测试。很抱歉,但我们的内核机器总是检索到比 NN 机器更好的结果,例如 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3766451中的 MNIST 测试