如何理解 AI 中自我监督学习的概念?

人工智能 自监督学习 表征学习
2021-10-26 05:55:58

我是自我监督学习的新手,目前这一切似乎有点神奇。

我能获得直观理解的唯一方法是假设,对于现实世界的问题,特征仍然嵌入在每个对象级别。

例如,为了检测看不见的图像中的猫,我的自我监督网络仍然必须完全由猫组成。

所以,如果我有 100 张猫的图像和 100 张狗的图像,那么我认为自我监督的方法可以学习图像的特征。例如,如果图像旋转 90 度,它会了解图像中旋转 90 度的内容。但是,如果我只想使用这种表示对猫进行分类,那么如果不区分是什么使猫成为猫,而狗成为狗,我就无法做到这一点。

我的假设正确吗?

2个回答

我不认为你的解释是正确的。以图像为例。

  • 监督学习

    例如分类(可能使用带有 L2 损失函数的 CNN)

    假设您有许多带有不同标签的图像。您希望找到一个函数来近似该函数y=f(x)给定了很多(x^,y^)样本对。

  • 无监督学习

    例如聚类(可能使用 k-means)

    假设您有许多图像,但我们没有标签,或者我们只是想看看是否有办法将它们分类为不同的类别。因此,我们通过一些未预定义的特征对图像进行聚类。

  • 自我监督学习

    例如超分辨率(可能使用带有 L2 损失函数的 CNN)

    您有许多没有标签的高分辨率图像,但是,您的目标是训练模型以对低分辨率图像进行上采样。因此,您可以将高分辨率图像作为目标,并将图像缩小为输入,并尝试训练图像对。所以目标不是一些人工标注的标签,而是直接从数据中生成的。

自我监督学习领域的先驱 Andrew Zisserman 在 ICML 的一次演讲中将自我监督学习描述为:

自监督学习是一种无监督学习形式,其中数据提供监督。一般来说,我们保留部分数据并让网络预测它。为了解决它,网络被迫学习我们真正关心的东西,例如语义表示。

因此,自我监督是无监督学习的一个子集,您可以从给定数据本身生成标签。自我监督学习有几种研究模式:

1. 重构:
在这方面,研究人员设置了pretext tasks,从灰度图像预测彩色图像(Image Colorization),从低分辨率版本预测高分辨率图像(Image Super-resolution)和去除部分图像并试图预测它(图像修复)。

2. 常识推理
您可以获取 3x3 图像的补丁并打乱补丁并要求网络预测正确的顺序(拼图游戏)。

同样,您可以使用中心补丁和一些随机补丁并训练模型来预测随机补丁相对于中心补丁的位置(上下文预测)。

还有另一种方法,您可以将图像随机旋转到 {0、90、180、270} 度并要求模型预测应用的旋转角度(几何变换识别)。

3. 聚类

您可以将图像聚类为 K 个类别并将这些聚类视为标签。然后,可以在这些集群上训练模型并获得表示。您可以再次重复聚类和模型训练几个时期。这些论文包括:DeepClusterSelf-Labeling

4.对比学习

在这个范例中,对图像进行了增强,任务是使相同图像的两个增强接近,同时使该图像与其他一些随机图像之间的距离更远。这些论文包括:SimCLRPIRL