PU 学习中的绩效指标如何影响?

机器算法验证 机器学习 分类 半监督学习
2022-04-20 00:00:28

当仅从正面和未标记的数据(PU 学习)中学习时,与标准监督设置相比,性能指标有何影响?

为简单起见,我们假设整个未标记的集合都被视为负数

例如,直觉上,我认为真实阳性的数量会被低估,因为一些未标记的观察结果在现实中是阳性的。

但是,我无法真正理解其他措施。这些会发生什么?

  • 真阳性
  • 真正的否定
  • 误报
  • 假阴性
  • 准确性
  • 曲线下面积
  • 精确
  • 召回/灵敏度
  • 特异性
1个回答

介绍

许多实际应用只有正面和未标记的数据(又名 PU 学习),这给构建和评估分类器带来了问题。仅使用正面和未标记的数据评估分类器是一项棘手的任务,只能通过做出一些假设来完成,这对于实际问题可能是合理的,也可能不是合理的。

无耻的自我广告:有关详细概述,我建议阅读我关于该主题的论文


我将描述 PU 学习设置对基于列联表的性能指标的主要影响。列联表将预测标签与真实标签相关联:

+---------------------+---------------------+---------------------+
|                     | positive true label | negative true label |
+---------------------+---------------------+---------------------+
| positive prediction | true positive       | false positive      |
| negative prediction | false negative      | true negative       |
+---------------------+---------------------+---------------------+

PU 学习中的问题是我们不知道真正的标签,这会影响列联表中的所有单元格(不仅仅是最后一列!)。如果不做额外的假设,就不可能声称 PU 学习设置对性能指标的影响。例如,如果您已知的肯定有偏见,您就无法做出任何可靠的推断(这很常见!)。


将未标记的集合视为负数

PU 学习中使用的一种常见简化是将未标记的集合视为负数,然后将指标视为完全监督的问题。有时这已经足够好,但在许多情况下这可能是有害的。我强烈反对它。

对精度的影响。假设我们要计算精度:

p=TPTP+FP.

现在,假设我们有一个完美的分类器,如果我们知道真正的标签(即,没有误报,p=1)。在 PU 学习设置中,使用未标记集为负的近似值,只有一小部分(实际上)真阳性被标记为这样,而其余的将被视为假阳性,立即产生p^<1. 显然这是错误的,但情况会变得更糟:估计误差可以任意大,这取决于已知阳性相对于潜在阳性的比例。假设只有 1% 的阳性是已知的,其余的在未标记的集合中,那么(仍然有一个完美的分类器),我们会得到p^=0.01……哎呀!

对其他指标的影响

  • 真阳性:低估
  • 真正的否定:高估
  • 误报:高估
  • 假阴性:低估
  • 精度:取决于天平和分类器

对于 AUC、敏感性和特异性,我建议阅读这篇论文,因为在这里足够详细地描述它会让我们走得太远。


从已知正例的秩分布开始

一个合理的假设是已知阳性是所有阳性的代表性子集(例如,它们是随机的、无偏的样本)。在这个假设下,已知正例的决策值的分布可以用作所有正例(以及相关等级)的决策值分布的代理。这个假设使我们能够计算列联表所有条目的严格界限,然后转化为(保证!)所有派生性能指标的界限。

我们所做的一个重要观察是,在上述假设下的 PU 学习上下文中,大多数性能指标的界限是未标记集合中正数比例的函数(β)。我们已经表明,在没有估计β基本上是不可能的,因为界限不再严格。