我是计算机视觉的新手。我正在阅读许多论文,并且看到了“借口任务”一词。任何人都可以解释它的确切含义。提前致谢。
计算机视觉中的借口任务
在自我监督学习中使用了一个借口任务来生成有用的特征表示,其中“有用”在本文中得到了很好的定义:
“有用”是指应该很容易适应其他任务的表示,在训练期间是未知的。
这篇论文对借口和下游任务的关系给出了非常清晰的解释:
Pretext Task: Pretext任务是预先设计好的任务,供网络解决,通过学习pretext任务的目标函数来学习视觉特征。
下游任务:下游任务是计算机视觉应用程序,用于评估通过自监督学习学习到的特征的质量。当训练数据稀缺时,这些应用程序可以极大地受益于预训练模型。
一个流行的借口任务是最小化自动编码器中的重建误差以创建低维特征表示。然后将这些表示用于您喜欢的任何任务,其想法是,如果解码器能够接近重建原始输入,则所有基本信息都存在于自动编码器的瓶颈层中,您可以使用该低维表示作为完整输入的代理。
视觉中的另一个借口任务是上下文编码器中的图像修复,其中网络尝试根据周围像素填充图像的空白区域。还有一个是灰度着色顾名思义,它尝试为灰度图像着色,其想法是,为了做到这一点,网络必须表示图像的空间布局以及一些语义知识。例如,将灰度校车着色为黄色可以捕捉到校车的共同规律,而不是可能是任何颜色的城市公交车。因此,如果您的任务是按类型对车辆进行分类,您可能会在此任务中表现更好,因为它已经编码了与我们对环境的语义标签密切相关的空间和颜色信息。
请注意,借口任务并不是计算机视觉所独有的,但由于视觉在当今许多积极的机器学习研究中占主导地位,因此有许多很好的借口任务示例已被证明有助于视觉相关任务。一个有趣的多模态示例是本文,他们训练一个网络来预测输入音频和视频流是否在时间上对齐。使用这些功能,他们能够执行很酷的任务,例如声源定位、动作识别和屏幕上/屏幕外预测(即分离与屏幕上可见的音频相关的音频以及来自视觉外部的背景音频)框架)。
@darshak Pretext 任务是预先设计的任务,供网络解决,通过学习 pretext 任务的目标函数来学习视觉特征。