我有一组 400 个标记样本(8 个数字特征),我在这些样本上训练了一个二元分类器。
我面临的问题是,一旦将分类器发送给用户,我将获得额外的样本,但这些样本不会被标记。我正在研究合并未标记数据的常用方法,以提高未来的分类准确性。在我看来,我有 4 个选项:
忘记现有的二元分类器,使用 S3VM 等半监督学习算法
保留现有的二元分类器,使用转导学习算法,例如标签传播,并使用新的(但可能是错误的)标记数据重新训练二元分类器;重复这个过程。
保留现有的二元分类器,使用(监督?)聚类算法标记新数据,并使用新(但可能错误)标记的数据重新训练二元分类器;重复这个过程。也许是一些期望最大化的混合模型?
另类的想法?
虽然 3) 似乎有相当大的缺陷,因为通常的聚类算法会优化与标签不同的标准,但我不确定如何考虑 1) 和 2)。在 2) 中我不喜欢的是,在我们使用标签传播算法之后,我们假设这些标签是正确的,并且基于这组新样本,我们想要选择新特征并重新训练我们的分类器。但是现在错误分类率的变化可能源于错误的特征选择,也可能源于新标签错误的事实。对我来说,1)似乎最能反映这种情况。我是否正确理解了情况,即 1) 是否优于 2) 和 2) 是否优于 3)?
还是我完全错过了这一点,而另一种方法比这三种方法中的任何一种都更合适?