人工智能 - 是否有可以使用监督学习方法训练的 GPT/2/3 的补充？ - 吾爱随笔录

这是一个有点软的问题，不确定它是否是主题，如果它不符合网站的标准，请告诉我如何改进它。

GPT 模型本质上是无监督的，并且（根据我的理解）给出提示，然后它们要么回答问题，要么继续句子/段落。它们似乎也是生成自然语言的最先进模型，能够以正确的语法提供输出，并且（至少在我看来）与人类编写的东西（有时至少！）没有区别。

但是，如果我有输入（可以是任何东西，但我们称其为图像或视频）和图像或视频的描述作为输出的问题，我理论上可以使用卷积滤波器训练模型来识别对象并描述图像（假设任何测试数据都在训练数据的范围内）。然而，当我过去看到这样的模型时，语言要么非常简单，要么“感觉”就像是由机器生产的。

有没有办法将 GPT 模型训练为具有输入（某些非语言类型）和输出（句子/段落）的监督学习模型；或可用于此任务的类似类型的机器学习模型？

几点注意事项：

我已经看到了深度学习的图像字幕方法——这些就是我上面提到的。我更多的是寻找可以采用输入-输出对的东西，其中输出是文本，输入是任何形式。