是否有可以使用监督学习方法训练的 GPT/2/3 的补充?

人工智能 自然语言处理 楷模 自然语言理解 文本生成
2021-10-23 00:13:14

这是一个有点软的问题,不确定它是否是主题,如果它不符合网站的标准,请告诉我如何改进它。

GPT 模型本质上是无监督的,并且(根据我的理解)给出提示,然后它们要么回答问题,要么继续句子/段落。它们似乎也是生成自然语言的最先进模型,能够以正确的语法提供输出,并且(至少在我看来)与人类编写的东西(有时至少!)没有区别。

但是,如果我有输入(可以是任何东西,但我们称其为图像或视频)和图像或视频的描述作为输出的问题,我理论上可以使用卷积滤波器训练模型来识别对象并描述图像(假设任何测试数据都在训练数据的范围内)。然而,当我过去看到这样的模型时,语言要么非常简单,要么“感觉”就像是由机器生产的。

有没有办法将 GPT 模型训练为具有输入(某些非语言类型)和输出(句子/段落)的监督学习模型;或可用于此任务的类似类型的机器学习模型

几点注意事项:

我已经看到了深度学习的图像字幕方法——这些就是我上面提到的。我更多的是寻找可以采用输入-输出对的东西,其中输出是文本,输入是任何形式。

1个回答

这是所谓的 V&L(视觉和语言模型)的任务,它有效地编码来自两个世界的信息。已经有许多培训语料库涵盖了该领域。这是一篇关于此问题的最新论文:https ://www.researchgate.net/publication/354617904_What_Vision-Language_Models_See'_when_they_See_Scenes