自监督学习算法自动提供标签。但是,尚不清楚算法还需要什么才能属于“自我监督”类别:
有人说,自监督学习算法在一组辅助任务[ 1 ] 上学习,也称为借口任务[ 2 , 3 ],而不是我们感兴趣的任务。进一步的例子是 word2vec 或自动编码器 [ 4 ] 或 word2vec [ 5 ]。这里有时会提到目标是“暴露数据的内部结构”。
其他人则没有提及,暗示某些算法如果直接学习我们感兴趣的任务,则可以称为“自监督学习算法”[ 6、7 ]。
“辅助任务”是训练设置被称为“自我监督学习”的要求还是只是可选的?
提到辅助/借口任务的研究文章:
自监督学习框架只需要未标记的数据即可制定借口学习任务,例如预测上下文或图像旋转,可以在没有监督的情况下计算目标目标。
- 通过预测图像旋转进行无监督表示学习,ICLR,2018,由 [ 2 ] 提到:
一个突出的范例是所谓的自我监督学习,它定义了一个无注释的借口任务,仅使用图像或视频上存在的视觉信息,以便为特征学习提供替代监督信号。
- 通过上下文预测进行无监督视觉表示学习,2016 年,由 [ 2 ] 提到:
这将一个明显无监督的问题(在单词之间找到一个好的相似性度量)转换为一个“自我监督”的问题:从给定单词学习一个函数到它周围的单词。在这里,上下文预测任务只是一个“借口”,迫使模型学习良好的词嵌入,这反过来又被证明在许多实际任务中很有用,例如语义词相似性。
在判别式自我监督学习中,这是这项工作的主要重点,模型在辅助或“借口”任务上进行训练,其基本事实是免费的。在大多数情况下,借口任务涉及预测数据的某些隐藏部分(例如,预测灰度图像的颜色)