只有正面标签的机器学习

信息处理 机器学习
2022-02-01 13:36:34

假设我有一个包含 10 个特征和大约 1000 个样本的二元分类问题。在训练集中,我的大部分数据都没有标记(75%)。其余数据被标记,但仅包含正标签。

在测试集中,我有消极和积极的标签。我应该如何处理这个分类问题?

2个回答

我会使用一种新奇检测方法:使用 SVM(一类)在现有正样本周围找到一个超平面。或者,您可以使用 GMM 来拟合多个超椭圆体以包含正样本。然后给定一个测试图像,对于支持向量机的情况,您检查它是否属于超平面。对于 GMM,您检查它是否包含在超椭圆体中。它们都被证明在实践中运行良好。

如果您的训练集中还有一些未标记的数据,我当然会采用迁移学习的变体。也许您可以根据已经学习的样本自动标记未标记的数据。

我通常在这些正标签上进行训练,并找到接受它为正的最小阈值,然后将每个小于该阈值的样本视为负。

仅当您的数据足够大时,此方法才有效。

其它你可能感兴趣的问题