自我监督学习领域的先驱 Andrew Zisserman 在 ICML 的一次演讲中将自我监督学习描述为:
自监督学习是一种无监督学习形式,其中数据提供监督。一般来说,我们保留部分数据并让网络预测它。为了解决它,网络被迫学习我们真正关心的东西,例如语义表示。
因此,自我监督是无监督学习的一个子集,您可以从给定数据本身生成标签。自我监督学习有几种研究模式:
1. 重构:
在这方面,研究人员设置了pretext tasks,从灰度图像预测彩色图像(Image Colorization),从低分辨率版本预测高分辨率图像(Image Super-resolution)和去除部分图像并试图预测它(图像修复)。
2. 常识推理:
您可以获取 3x3 图像的补丁并打乱补丁并要求网络预测正确的顺序(拼图游戏)。
同样,您可以使用中心补丁和一些随机补丁并训练模型来预测随机补丁相对于中心补丁的位置(上下文预测)。
还有另一种方法,您可以将图像随机旋转到 {0、90、180、270} 度并要求模型预测应用的旋转角度(几何变换识别)。
3. 聚类:
您可以将图像聚类为 K 个类别并将这些聚类视为标签。然后,可以在这些集群上训练模型并获得表示。您可以再次重复聚类和模型训练几个时期。这些论文包括:DeepCluster和Self-Labeling。
4.对比学习:
在这个范例中,对图像进行了增强,任务是使相同图像的两个增强接近,同时使该图像与其他一些随机图像之间的距离更远。这些论文包括:SimCLR和PIRL。