机器算法验证 - 将新的未标记数据合并到基于一小组标记数据训练的分类器中 - 吾爱随笔录

我有一组 400 个标记样本（8 个数字特征），我在这些样本上训练了一个二元分类器。

我面临的问题是，一旦将分类器发送给用户，我将获得额外的样本，但这些样本不会被标记。我正在研究合并未标记数据的常用方法，以提高未来的分类准确性。在我看来，我有 4 个选项：

忘记现有的二元分类器，使用 S3VM 等半监督学习算法
保留现有的二元分类器，使用转导学习算法，例如标签传播，并使用新的（但可能是错误的）标记数据重新训练二元分类器；重复这个过程。
保留现有的二元分类器，使用（监督？）聚类算法标记新数据，并使用新（但可能错误）标记的数据重新训练二元分类器；重复这个过程。也许是一些期望最大化的混合模型？
另类的想法？

虽然 3) 似乎有相当大的缺陷，因为通常的聚类算法会优化与标签不同的标准，但我不确定如何考虑 1) 和 2)。在 2) 中我不喜欢的是，在我们使用标签传播算法之后，我们假设这些标签是正确的，并且基于这组新样本，我们想要选择新特征并重新训练我们的分类器。但是现在错误分类率的变化可能源于错误的特征选择，也可能源于新标签错误的事实。对我来说，1）似乎最能反映这种情况。我是否正确理解了情况，即 1) 是否优于 2) 和 2) 是否优于 3)？

还是我完全错过了这一点，而另一种方法比这三种方法中的任何一种都更合适？