为什么是积极的无标签学习?

数据挖掘 机器学习 分类 半监督学习
2021-09-20 14:38:25

机器学习可以分为几个领域:监督学习、无监督学习、半监督学习、排序学习、推荐系统等。

一个这样的领域是PU 学习,其中只有 Positive 和 Unlabeled 实例可用。

有很多关于这个的出版物,通常涉及很多数学......

在查看文献时,我期待看到类似于自我训练(来自半监督学习)的方法,其中标签会根据分类器边距逐渐调整。

我不认为这些是该地区的从业者所做的,我无法驾驭数学或找到有关 PU 学习的调查。

该地区的人能否澄清一下从业者所说的内容?为什么他们不能只使用负类=未标记的二元分类器?未标记的数据中可以存在负标签吗?目标是什么以及存在哪些指标来评估所述目标?

4个回答

从那以后我发现了几点:

  1. 我怀疑自我训练可以用于 PU 学习是正确的。事实上,我找到了关于 PU Learning 的原始论文,确实该论文是关于自我训练的变体。(奇怪的是,原作者有正面、未标记和负面的例子!)
  2. 本次调查的作者确定了三类方法:(i)两步策略(识别未标记数据中的可靠负例,然后使用监督学习),(ii)对正例和未标记示例加权,并估计条件概率给出一个例子的正标签(我相信这类似于半监督自我训练),并且(iii)只是将未标记的数据视为高噪声负数据。
  3. 本文的表 1 中描述了一些有趣的损失函数可用于神经网络(我想可以适用于梯度提升)

为什么他们不能只使用负类=未标记的二元分类器?

例如,当只有一小部分数据被标记为正样本时。它实际上发生在您没有足够的资源来标记所有数据的情况下。如果您在假设所有未标记数据都是负样本的情况下训练模型,那么您的模型将必须在真正的正样本之间找到决策边界。那么你的模型很可能表现不佳。

PU 学习只是半监督学习的一个子类。

每当您歪曲数据集时,就意味着您比其他人更了解一个典型的类。在这种情况下,这意味着数据是您的知识,并且无法找到贝叶斯错误的最小值,因为您不知道其他可用类的分布,因此您将无法找出是否不同类的分布在当前特征空间中重叠。并且有针对这种情况的学习算法。

在这里考虑一个重要的事实。假设您有一家核公司状况的特征向量,它们描述了该公司是否处于核辐射危险中。在这种情况下,很明显,您感染公司的情况并不多,您所有的数据都带有健康状况的标签。你对健康类有很多了解,但对感染类了解不多,因为你没有太多数据;因此,您不知道它的分布,也无法很好地估计它。每当您的数据倾斜时,这意味着例如您有 100 万个负类特征向量和 5 个正类特征向量(如果有的话)。

我从这里引用在统计学习中有一种叫做贝叶斯误差的东西,每当类的分布重叠时,误差的比例就很大。在不改变特征的情况下,当前分布的贝叶斯误差是最好的表现,如果每个类的样本数相等,根本无法降低。在异常问题中,这是不可能的。您无法为每个类别找到平衡的样本。

以 Collaborative-Filtering 推荐系统的具体示例为例,一个初始数据集包含一个类别的大部分正样本和一小部分未标记示例,通常通过基于流行度参数为未标记示例赋予负值来解决.

这意味着对于在数据集中具有总体高流行度(基于标记示例的数量)的类,可以安全地假设未知示例的负倾向。

@Ricardo Cruz:我相信这与您的第 2(iii) 点相似。