大脑使用哪些学习任务来训练自己看东西?

数据挖掘 机器学习 计算机视觉
2021-10-07 06:23:10

在计算机视觉中,使用监督任务非常普遍,其中数据集必须由人类手动注释。一些例子是对象分类(类标签)、检测(边界框)和分割(像素级掩码)。这些数据集本质上是成对的输入-输出,用于训练卷积神经网络通过梯度下降优化来学习从输入到输出的映射。但是动物不需要任何人向它们展示物体顶部的边界框或面具,以便它们学会检测物体并理解它们周围的视觉世界。这使我认为大脑必须进行某种自我监督来训练自己看。

当前的研究对大脑用于实现如此出色的视觉能力水平的学习范式有何看法?大脑使用哪些任务来训练自己如此擅长处理视觉信息并理解周围的视觉世界?或者换句话说:大脑如何在不访问手动注释数据集(如 ImageNet、COCO 等)的情况下训练其神经网络(即大脑如何生成自己的训练示例)?最后,我们可以将这些见解应用到计算机视觉中吗?

3个回答

也许这篇论文会从生物学角度给你一个关于这个主题的概述(和入口)。它是对人类大脑发育最先进技术(及其对临床治疗的影响)的综述。

目录包括例如

  • 第 1 阶段:第一年,视力的早期成熟和 V1 神经生物学的结构
  • 第 2 阶段:学龄前儿童的 V1 发育差异很大(1-4 岁)
  • 第 3 阶段:学龄儿童(5-11 岁)的经验依赖性视觉发展

(V1 的意思是“视觉皮层”) 这点都处理 3 类:视觉里程碑(即对比敏感度、轮廓整合)、解剖里程碑(即形态学)和神经生物学里程碑(即突触,还有很多遗传学)。

第二个:也许你也可以在 bioinformatics.SE 上问这个问题,因为生物示例和计算再现之间的这种联系是他们的领域之一。

我认为这类问题更适合人工智能 SE,但在这里也适用(我猜)。

所以自然神经网络有很多时间使用遗传算法(进化)进行开发。即使是复杂的人眼也可能是从细菌开始使用简单的光强度感应来寻找光(能量)源的。

有足够的时间,我们的大脑得到了发展,我们在视觉皮层中有大约 5 个已知区域,每个区域负责一种功能(检查Mind Field

此外,对自然神经元的学习过程/优化知之甚少,但您的问题是关于使用的数据......

好吧,我们将事物聚集在生存实用程序中:我们检测人脸并很好地进行人识别,这是我们视觉皮层最先进的特征之一,这可以追溯到我们的社会需求,这与我们的生存能力有着内在的联系. 识别对我们友好的人和可能对我们造成伤害的人对我们来说非常重要。

当对象是使用成像诊断脑部疾病时,CNN 已经在击败我们的大脑。

所以总结一下我的回答:适应环境让我们能够定义要学习什么,正确的预测让我们能够生存和进化,而过早死亡可以避免坏基因的传播

我们的环境通过强化学习+遗传算法为我们提供了标签。

补充:我们还开发了传播我们知识的能力(有时通过遗传密码,有时通过教别人)。

我没有找到你的问题的决定性答案。我介绍了我发现的最接近的内容,以及我的个人想法。

我得到的最接近的是找到这些被广泛引用的论文:

  1. 1997 大脑如何在贫困的环境中学会看物体和面孔

    我们的结果支持心理学理论,即感知是当前感觉输入与记忆和可能的注意力过程相互作用的联合函数。

  2. 2004 视觉感知学习的逆层次理论

    RHT 提出,幼稚的表现是基于高级皮层区域的反应,其中代表了环境的粗略、分类级别的表示。因此,初始学习阶段涉及理解任务的全局方面。由于通过从高到低级别的反馈连接访问较低级别的信息,后续实践可能会产生更好的感知分辨率(感知学习的维基页面)。

缺乏回答问题所需的全面性。通过查看引用,我想说你的问题还没有一个令人满意的、广受欢迎的答案,这通常会导致一篇标题引人入胜的高引用论文!

在项目中,我遇到了看起来很有趣且相关的Project Prakash :

普拉卡什计划的目标是为可治愈的失明儿童的生活带来光明,并以此阐明一些关于大脑如何发育和学会看的最基本的科学问题(从这里)。

以及一个有趣的(但被认为是有争议的)TED演讲,展示了最近治愈的盲人如何通过强调运动的作用来检测物体(缺乏基于单一图像的物体检测方法)。这是他们检测到的不同对象的示例,这可能比人工神经网络更糟糕。

                           

这是我关于“任务”的想法(与@PedroHenriqueMonforte 很好地回答了关于进化的问题):

“任务”有一个目标,一个目标。大脑最高层次的目标是什么?为生存和繁殖的基因服务。如果大脑(眼睛、心脏等)在这项任务中失败了怎么办?该基因将从池中移除。

这是元学习,学会学习。一群学习者(创造能够学会看东西的大脑的基因)一直在努力生存,而更好(更快)的学习者实现目标的机会更高。这是主要的监督在极端情况下,基因库只需猜测最初的大脑重量就可以完成工作!

这里最重要的一点是大脑进化了大约 4.5 亿年。我认为仅此一点就表明并非所有的视觉理解都发生在出生后。也就是说,动物一开始就具有良好的架构和初始权重,类似于被交给一个预先训练过生存和繁殖任务的网络。从这个角度来看,基于视觉输入的视觉训练更像是一种微调。