一种将标签传播到未标记数据的方法

机器算法验证 机器学习 分类 缺失数据 半监督学习
2022-03-25 15:49:40

我有大量数据,一小部分被标记为“A”类,其余的没有标记。我知道一些未标记的数据也应该标记为“A”。为了标记更多数据,我的想法是执行以下操作:

  1. 在整个数据集上构建一个分类器,将“A”类与未标记的数据分开。
  2. 在未标记的数据上运行分类器。
  3. 将分类为“A”类的未标记项目添加到“A”类。
  4. 重复。

有很多部分不清楚和/或有问题,例如何时停止以及如何准确设置何时接受某物属于“A”类的阈值。

文献中是否已经知道这样的方法,以便我可以获得一些关于如何正确执行它的想法?

2个回答

从正面和未标记的数据中学习通常被称为 PU 学习。您所描述的是解决此类问题的常用方法,尽管我个人不喜欢这种迭代方法,因为它们对误报高度敏感(如果有的话)。

您可能想查看我的两篇论文和其中的参考文献,以了解有关这些问题的当前研究的最新概述:

第一篇论文描述了一种学习分类器的最先进方法,第二篇论文是唯一一种允许您根据测试集中的列联表估计任何性能指标的方法,而没有已知的负数(您没看错)。

这两篇论文还很好地概述了有关该主题的现有文献。