介绍

许多实际应用只有正面和未标记的数据（又名 PU 学习），这给构建和评估分类器带来了问题。仅使用正面和未标记的数据评估分类器是一项棘手的任务，只能通过做出一些假设来完成，这对于实际问题可能是合理的，也可能不是合理的。

无耻的自我广告：有关详细概述，我建议阅读我关于该主题的论文。

我将描述 PU 学习设置对基于列联表的性能指标的主要影响。列联表将预测标签与真实标签相关联：

+---------------------+---------------------+---------------------+
|                     | positive true label | negative true label |
+---------------------+---------------------+---------------------+
| positive prediction | true positive       | false positive      |
| negative prediction | false negative      | true negative       |
+---------------------+---------------------+---------------------+

PU 学习中的问题是我们不知道真正的标签，这会影响列联表中的所有单元格（不仅仅是最后一列！）。如果不做额外的假设，就不可能声称 PU 学习设置对性能指标的影响。例如，如果您已知的肯定有偏见，您就无法做出任何可靠的推断（这很常见！）。

将未标记的集合视为负数

PU 学习中使用的一种常见简化是将未标记的集合视为负数，然后将指标视为完全监督的问题。有时这已经足够好，但在许多情况下这可能是有害的。我强烈反对它。

对精度的影响。假设我们要计算精度：

p = \frac{T P}{T P + F P} .

$p = \frac{TP}{TP + FP}.$

现在，假设我们有一个完美的分类器，如果我们知道真正的标签（即，没有误报， $p=1$ ）。在 PU 学习设置中，使用未标记集为负的近似值，只有一小部分（实际上）真阳性被标记为这样，而其余的将被视为假阳性，立即产生 $\hat{p} < 1$ . 显然这是错误的，但情况会变得更糟：估计误差可以任意大，这取决于已知阳性相对于潜在阳性的比例。假设只有 1% 的阳性是已知的，其余的在未标记的集合中，那么（仍然有一个完美的分类器），我们会得到 $\hat{p} = 0.01$ ……哎呀！

对其他指标的影响：

真阳性：低估
真正的否定：高估
误报：高估
假阴性：低估
精度：取决于天平和分类器

对于 AUC、敏感性和特异性，我建议阅读这篇论文，因为在这里足够详细地描述它会让我们走得太远。

从已知正例的秩分布开始

一个合理的假设是已知阳性是所有阳性的代表性子集（例如，它们是随机的、无偏的样本）。在这个假设下，已知正例的决策值的分布可以用作所有正例（以及相关等级）的决策值分布的代理。这个假设使我们能够计算列联表所有条目的严格界限，然后转化为（保证！）所有派生性能指标的界限。

我们所做的一个重要观察是，在上述假设下的 PU 学习上下文中，大多数性能指标的界限是未标记集合中正数比例的函数（ $\beta$ ）。我们已经表明，在没有估计 $\beta$ 基本上是不可能的，因为界限不再严格。

其它你可能感兴趣的问题

上一篇选择回归变量以包含在带有 ARMA 错误的回归中下一篇R：anova() 与 Anova() 用于测试来自 glmer 或 glm.nb 对象的分类预测器