我有 2 个数据集(D1、D2)来训练 2 个模型(M1、M2)。
M1 是一个概率分类器,它为一个二元分类问题输出软标签(样本属于每个类的概率),由 a 实现
sklearn.svm.SVC(probability=True)。M2 是一个生成模型,它生成属于所需类别的样本。该模型的输入是软类标签和其他一些属性。
D1 有样本、它们的属性和它们的二进制标签(0 或 1),它们用作训练 M1 的基本事实。
D2 具有未标记的样本及其属性。因此,训练好的 M1 模型用于标记它们,然后才使用它们来训练 M2。
我的问题:
我想使用 D1 作为生成模型 M2 的输入。但是我不确定我是否应该使用地面实况“硬”标签(整数 0 或 1)以及其他属性作为 M2 的输入,或者首先使用 M1 反算 D1 的实值软标签并输入它们到 M1。
我希望这张图能对我的任务有所帮助。
