类似于最近在预训练语言模型(BERT、GPT2、XLNet)方面的推动,我想知道计算机视觉中是否存在这样的推动力?
据我了解,社区似乎已经将 ImageNet 训练的分类器融合为“预训练视觉模型”。但是相对于我们也可以访问的数据,不应该存在更强大的东西吗?此外,分类作为一项单独的任务对域转移有其自身的限制(基于这些损失流形如何的假设)。
有没有比 ImageNet 更好的迁移视觉模型?如果不是,为什么?与文本相比,是因为形状、分辨率等领域的流动性吗?
类似于最近在预训练语言模型(BERT、GPT2、XLNet)方面的推动,我想知道计算机视觉中是否存在这样的推动力?
据我了解,社区似乎已经将 ImageNet 训练的分类器融合为“预训练视觉模型”。但是相对于我们也可以访问的数据,不应该存在更强大的东西吗?此外,分类作为一项单独的任务对域转移有其自身的限制(基于这些损失流形如何的假设)。
有没有比 ImageNet 更好的迁移视觉模型?如果不是,为什么?与文本相比,是因为形状、分辨率等领域的流动性吗?
在 ImageNet 数据集上预训练的模型多年来一直是事实上的选择。关于为什么人们认为 ImageNet 对迁移学习如此有效的许多流行原因如下:
我认为非常重要的另一个被忽视的原因是:
在实践中,由于 CNN 从图像中识别和提取特征的方式,它们可以很容易地从一个任务“转移”到另一个任务。
Huh 等人广泛探讨了这个问题。,他试图找出使 ImageNet 数据集在迁移学习方面优于其他数据集的原因。
简而言之,他们发现人们认为 ImageNet 如此出色的大多数原因(即我上面提到的那些)并不一定是正确的。此外,有效训练 CNN 所需的图像和类别的数量和多样性被高度高估了。因此,人们没有特别的理由应该选择这个特定的数据集。
我想知道计算机视觉中是否存在这样的推力?
不,ImageNet 目前被确立为事实上的选择,这从所有 10 个 keras.applications 模型只为 ImageNet 提供权重这一事实就可以看出。
但是相对于我们也可以访问的数据,不应该存在更强大的东西吗?
这是一个有趣的问题,因为随着数据的增加,深度学习模型会变得越来越好。然而,有证据表明并非如此(即 CNN 模型没有我们想象的那么大的容量)。您可以阅读上述研究以获取更多详细信息。无论如何,这仍然是一个开放的研究问题。
即使模型可以变得更好,但是,有了更多的数据,它仍然可能无关紧要,因为 ImageNet 预训练的模型足够强大。
分类作为一项单独的任务对域迁移有其自身的限制
在许多情况下,从预训练的 ImageNet 权重初始化的模型在分类以外的设置(例如回归、对象检测)中表现良好。我认为 ImageNet 的初始化几乎总是比随机初始化好。
有没有比 ImageNet 更好的迁移视觉模型?如果不是,为什么?与文本相比,是因为形状、分辨率等领域的流动性吗?
部分,是的。我认为与文本相比,图像具有一些有用的属性,可以通过 CNN 加以利用,这使得它们的知识更具可转移性。然而,这种说法是基于直觉的。我无法以某种方式支持这一点。