数据挖掘 - 当我使用概率分类器时，我应该反算训练集的软标签（概率）吗？ - 吾爱随笔录

我有 2 个数据集（D1、D2）来训练 2 个模型（M1、M2）。

M1 是一个概率分类器，它为一个二元分类问题输出软标签（样本属于每个类的概率），由 a 实现sklearn.svm.SVC(probability=True)。
M2 是一个生成模型，它生成属于所需类别的样本。该模型的输入是软类标签和其他一些属性。
D1 有样本、它们的属性和它们的二进制标签（0 或 1），它们用作训练 M1 的基本事实。
D2 具有未标记的样本及其属性。因此，训练好的 M1 模型用于标记它们，然后才使用它们来训练 M2。

我的问题：

我想使用 D1 作为生成模型 M2 的输入。但是我不确定我是否应该使用地面实况“硬”标签（整数 0 或 1）以及其他属性作为 M2 的输入，或者首先使用 M1 反算 D1 的实值软标签并输入它们到 M1。

我希望这张图能对我的任务有所帮助。