这是一个有点软的问题,不确定它是否是主题,如果它不符合网站的标准,请告诉我如何改进它。
GPT 模型本质上是无监督的,并且(根据我的理解)给出提示,然后它们要么回答问题,要么继续句子/段落。它们似乎也是生成自然语言的最先进模型,能够以正确的语法提供输出,并且(至少在我看来)与人类编写的东西(有时至少!)没有区别。
但是,如果我有输入(可以是任何东西,但我们称其为图像或视频)和图像或视频的描述作为输出的问题,我理论上可以使用卷积滤波器训练模型来识别对象并描述图像(假设任何测试数据都在训练数据的范围内)。然而,当我过去看到这样的模型时,语言要么非常简单,要么“感觉”就像是由机器生产的。
有没有办法将 GPT 模型训练为具有输入(某些非语言类型)和输出(句子/段落)的监督学习模型;或可用于此任务的类似类型的机器学习模型?
几点注意事项:
我已经看到了深度学习的图像字幕方法——这些就是我上面提到的。我更多的是寻找可以采用输入-输出对的东西,其中输出是文本,输入是任何形式。