为了在没有专家/人类监督的情况下学习高级视觉技能,大脑优化了哪个损失函数?

人工智能 机器学习 计算机视觉 认知科学 生物学
2021-10-30 11:17:07

在计算机视觉中,使用监督任务非常普遍,其中数据集必须由人类手动注释。一些例子是对象分类(类标签)、检测(边界框)和分割(像素级掩码)。这些数据集本质上是成对的输入-输出,用于训练卷积神经网络通过梯度下降优化来学习从输入到输出的映射。但是动物不需要任何人向它们展示物体顶部的边界框或面具,以便它们学会检测物体并理解它们周围的视觉世界。这使我认为大脑必须进行某种自我监督来训练自己看。

当前的研究对大脑用于实现如此出色的视觉能力水平的学习范式有何看法?大脑使用哪些任务来训练自己如此擅长处理视觉信息并理解周围的视觉世界?或者换句话说:大脑如何在没有访问手动注释数据集(如 ImageNet、COCO 等)的情况下设法训练其神经网络(即大脑使用什么作为基本事实,大脑正在优化的损失函数是什么? )? 最后,我们可以将这些见解应用到计算机视觉中吗?


更新:我在 Psychology & Neuroscience StackExchange 上发布了一个相关问题,我认为它补充了我在此处发布的问题:查看

1个回答

我认为你有点混淆了2个问题。一个是元视觉元素的分类,另一个是视觉系统本身。

我们的视觉系统,在处理信息方面,已经经历了数十亿年的迭代(训练),因此在出生时(和之前),我们已经针对视觉刺激的处理进行了调整,并且具有破译的机制我们空间视野中的物体。

这两篇论文(L1L2)包含大量关于我们的视觉系统演化及其处理的信息。第二个推测上述进化与构建“视觉系统”之间的联系非常有趣。

特别要进一步询问,请查看David Marr他可能是最有影响力的早期计算机视觉思想。直到今天,他仍然在许多自上而下的 AGI 和计算机视觉研究项目中被提及。