在计算机视觉中,使用监督任务非常普遍,其中数据集必须由人类手动注释。一些例子是对象分类(类标签)、检测(边界框)和分割(像素级掩码)。这些数据集本质上是成对的输入-输出,用于训练卷积神经网络通过梯度下降优化来学习从输入到输出的映射。但是动物不需要任何人向它们展示物体顶部的边界框或面具,以便它们学会检测物体并理解它们周围的视觉世界。这使我认为大脑必须进行某种自我监督来训练自己看。
当前的研究对大脑用于实现如此出色的视觉能力水平的学习范式有何看法?大脑使用哪些任务来训练自己如此擅长处理视觉信息并理解周围的视觉世界?或者换句话说:大脑如何在不访问手动注释数据集(如 ImageNet、COCO 等)的情况下训练其神经网络(即大脑如何生成自己的训练示例)?最后,我们可以将这些见解应用到计算机视觉中吗?