为什么神经网络需要这么多训练样本来执行?

机器算法验证 神经网络 神经科学
2022-02-11 03:10:06

一个 2 岁的人类儿童需要大约 5 个汽车实例才能以合理的准确度识别它,而不管颜色、品牌等如何。当我儿子 2 岁时,他能够识别电车和火车,即使他见过一些。由于他经常互相混淆,显然他的神经网络没有得到足够的训练,但仍然如此。

是什么让人工神经网络无法更快地学习?迁移学习是一个答案吗?

4个回答

我告诫不要期望生物和人工神经网络之间有很强的相似性。我认为“神经网络”这个名字有点危险,因为它诱使人们期望神经过程和机器学习应该是相同的。生物和人工神经网络之间的差异大于相似之处。

作为一个如何出错的示例,您还可以将原始帖子中的推理颠倒过来。只要你有一台速度相当快的计算机和一些训练数据,你就可以在一个下午训练一个神经网络来学习识别汽车。你可以把它变成一个二元任务(汽车/非汽车)或多类任务(汽车/电车/自行车/飞机/船),并且仍然对高水平的成功充满信心。

相比之下,我不指望一个孩子能够在汽车出生后的当天——甚至是一周内——挑选出一辆汽车,即使它已经看过“这么多的训练示例”。两岁大的孩子和婴儿之间的一些明显不同是学习能力差异的原因,而普通的图像分类神经网络完全能够在“出生”后立即进行物体分类。我认为有两个重要的区别:(1)可用的训练数据的相对数量和(2)由于丰富的训练数据而随着时​​间的推移而发展的自学机制。


原帖暴露了两个问题。问题的标题和正文询问为什么神经网络需要“这么多示例”。相对于孩子的经验,使用常见图像基准训练的神经网络数据相对较少。

我将把标题中的问题重新表述为

“针对常见图像基准训练神经网络与儿童的学习体验相比如何?”

为了比较,我将考虑 CIFAR-10 数据,因为它是一个常见的图像基准。标记部分由 10 类图像组成,每类 6000 张图像。每个图像为 32x32 像素。如果您以某种方式堆叠来自 CIFAR-10 的标记图像并制作标准的 48 fps 视频,您将拥有大约 20 分钟的镜头。

一个每天观察世界 12 小时的 2 岁儿童大约有 263000 分钟(超过 4000 小时)对世界的直接观察,包括来自成人的反馈(标签)。(这些只是粗略的数字——我不知道一个典型的两岁孩子花了多少分钟观察这个世界。)此外,孩子将接触到许多、许多超出 CIFAR 的 10 个类别的物体—— 10.

所以有一些事情在起作用。一是与 CIFAR-10 模型相比,儿童接触到的总体数据更多,数据来源更多样化。数据多样性和数据量被公认为是稳健模型的先决条件。从这个角度来看,神经网络在这项任务上比孩子更差似乎并不令人惊讶,因为与两岁的孩子相比,在 CIFAR-10 上训练的神经网络对训练数据的需求是积极的。儿童可用的图像分辨率优于 32x32 CIFAR-10 图像,因此儿童能够了解有关物体精细细节的信息。

CIFAR-10 与 2 岁的比较并不完美,因为 CIFAR-10 模型可能会在相同的静态图像上多次通过训练,而孩子将使用双目视觉看到物体是如何排列成三个多维世界,同时在同一物体上移动并使用不同的照明条件和视角。

关于OP的孩子的轶事暗示了第二个问题,

“神经网络如何成为自学?”

一个孩子被赋予了一些自学的天赋,因此可以随着时间的推移添加新的对象类别,而不必从头开始。

  • OP关于命名了机器学习上下文中的一种模型适应。

  • 在评论中,其他用户指出一次性学习和少量学习*是另一个机器学习研究领域。

  • 此外,从不同的角度解决自学模型,本质上允许机器人进行试错实验,以找到解决特定问题(例如下棋)的最佳策略。

这三种机器学习范式都可能与改进机器适应新的计算机视觉任务的方式密切相关,这可能是真的。快速使机器学习模型适应新任务是一个活跃的研究领域。然而,由于这些项目的实际目标(识别新的恶意软件实例、识别护照照片中的冒名顶替者、索引互联网)和成功标准与孩子了解世界的目标不同,而且一个事实是在一台使用数学的计算机,另一台使用化学在有机材料中完成,两者之间的直接比较仍然令人担忧。


顺便说一句,研究如何翻转 CIFAR-10 问题并训练神经网络从 10 个示例中识别 6000 个对象会很有趣。但即使这样与 2 岁的孩子进行比较也不公平,因为训练数据的总量、多样性和分辨率仍然存在很大差异。

*我们目前没有一次性学习或少量学习的标签。

首先,在两岁时,孩子对这个世界有了很多了解并积极地应用这些知识。孩子通过将这些知识应用于新概念来进行大量“迁移学习”。

其次,在看到这五个“标记”的汽车示例之前,孩子会在街上、电视上、玩具车等上看到很多汽车,因此也预先发生了很多“无监督学习”。

最后,神经网络与人脑几乎没有共同之处,因此比较它们没有太大意义。另请注意,有用于一次性学习的算法,目前正在进行大量研究。

我在当前答案中没有看到的一个主要方面是进化

孩子的大脑不是从零开始学习的。这类似于询问鹿和长颈鹿婴儿如何在出生后几分钟内走路。因为他们生来就已经为这项任务做好了准备。当然需要进行一些微调,但小鹿不会从“随机初始化”中学会走路。

同样,存在大型移动物体并且对跟踪很重要这一事实是我们与生俱来的。

所以我认为这个问题的预设是完全错误的。人类神经网络有机会看到大量——也许不是汽车,而是——移动、旋转具有困难纹理和形状等的 3D 对象,但这发生在很多代人身上,学习是通过进化算法进行的,即那些大脑为这项任务提供了更好的结构,可以以更高的机会进行繁殖,从一开始就为下一代留下越来越好的大脑接线。

我对神经网络知之甚少,但我对婴儿知之甚少。

许多 2 岁的孩子对于应该如何使用通用词有很多问题。例如,在那个年龄段,孩子们用“狗”来表示任何四足动物是很常见的。这比“汽车”更难区分——例如,想想贵宾犬和伟大的丹麦人看起来有多么不同,但它们都是“狗”,而猫不是。

一个 2 岁的孩子已经看到了超过 5 个“汽车”的例子。任何时候全家开车时,孩子都会看到数十甚至数百辆汽车的例子。而且很多家长会评论“看车”超过5次。但是孩子们也可以以他们没有被告知的方式思考。例如,孩子在街上看到很多东西排成一列。他的父亲说(其中一个)“看看闪亮的汽车!” 孩子想“也许所有其他排列的东西也是汽车?”